In [8]:
with open('./divina_commedia_first_pages.txt', 'r') as file:
    data = file.readlines()

In [9]:
data

['Nel mezzo del cammin di nostra vita mi ritrovai per una selva oscura, ché la diritta via era smarrita.\n',
 "Lo giorno se n'andava, e l'aere bruno toglieva li animai che sono in terra dalle fatiche loro; e io sol uno m'apparecchiava a sostener la guerra sì del cammino e sì della pietate, che ritrarrà la mente che non erra.\n",
 "Io dico, seguitando, ch'assai prima che noi fossimo al piè de l'alta torre, li occhi nostri n'andar suso a la cima per due fiammette che i vedemmo porre, e un'altra da lungi render cenno, tanto ch'a pena il potea l'occhio tòrre.\n",
 "Poscia ch'io v'ebbi rotta la persona di due miei compagni e la via smarrita, venimmo a piè d'un colle, che, pel suo forte, per esso non mi parve più salita.\n",
 "Nel manto che di corvo tutto serra, nei sassi di Cerbero l'aspro core trema, sì come una foglia verde, nel freddo tempo matutino a ora.\n",
 "Al vespro di un'era antica, oltre gli anni di nostra gioventude, mi ritrovai in un'ombra incerta, dove per paura mi fermò l'umo

## Map Step

The Map step processes the input data to produce a set of intermediate key-value pairs. Here, we split each sentence into words and map each word to a key-value pair `(word, 1)`.

In [10]:
def map_function(sentences):
    """
    Map function to split sentences into words and map each word to (word, 1)
    """
    mapped = []
    for sentence in sentences:
        words = sentence.split()
        for word in words:
            mapped.append((word.lower(), 1))
    return mapped

# Execute Map Step
mapped = map_function(data)
print("Mapped Data:", mapped)

Mapped Data: [('nel', 1), ('mezzo', 1), ('del', 1), ('cammin', 1), ('di', 1), ('nostra', 1), ('vita', 1), ('mi', 1), ('ritrovai', 1), ('per', 1), ('una', 1), ('selva', 1), ('oscura,', 1), ('ché', 1), ('la', 1), ('diritta', 1), ('via', 1), ('era', 1), ('smarrita.', 1), ('lo', 1), ('giorno', 1), ('se', 1), ("n'andava,", 1), ('e', 1), ("l'aere", 1), ('bruno', 1), ('toglieva', 1), ('li', 1), ('animai', 1), ('che', 1), ('sono', 1), ('in', 1), ('terra', 1), ('dalle', 1), ('fatiche', 1), ('loro;', 1), ('e', 1), ('io', 1), ('sol', 1), ('uno', 1), ("m'apparecchiava", 1), ('a', 1), ('sostener', 1), ('la', 1), ('guerra', 1), ('sì', 1), ('del', 1), ('cammino', 1), ('e', 1), ('sì', 1), ('della', 1), ('pietate,', 1), ('che', 1), ('ritrarrà', 1), ('la', 1), ('mente', 1), ('che', 1), ('non', 1), ('erra.', 1), ('io', 1), ('dico,', 1), ('seguitando,', 1), ("ch'assai", 1), ('prima', 1), ('che', 1), ('noi', 1), ('fossimo', 1), ('al', 1), ('piè', 1), ('de', 1), ("l'alta", 1), ('torre,', 1), ('li', 1), ('oc

## Shuffle and Sort Step

This step groups the intermediate key-value pairs by key (word). In a real MapReduce system, this is usually handled by the framework. Here, we'll manually group the key-value pairs.

In [11]:
from collections import defaultdict

def shuffle_and_sort(mapped):
    """
    Shuffle and Sort function to group the mapped key-value pairs by key
    """
    grouped = defaultdict(list)
    for key, value in mapped:
        grouped[key].append(value)
    return grouped

# Execute Shuffle and Sort Step
grouped = shuffle_and_sort(mapped)
print("Grouped Data:", dict(grouped))

Grouped Data: {'nel': [1, 1, 1], 'mezzo': [1], 'del': [1, 1, 1], 'cammin': [1], 'di': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'nostra': [1, 1, 1], 'vita': [1], 'mi': [1, 1, 1, 1], 'ritrovai': [1, 1], 'per': [1, 1, 1, 1], 'una': [1, 1], 'selva': [1], 'oscura,': [1], 'ché': [1], 'la': [1, 1, 1, 1, 1, 1, 1, 1], 'diritta': [1], 'via': [1, 1, 1], 'era': [1, 1], 'smarrita.': [1], 'lo': [1, 1, 1], 'giorno': [1, 1], 'se': [1, 1], "n'andava,": [1], 'e': [1, 1, 1, 1, 1, 1, 1, 1], "l'aere": [1], 'bruno': [1], 'toglieva': [1], 'li': [1, 1], 'animai': [1], 'che': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'sono': [1], 'in': [1, 1, 1], 'terra': [1], 'dalle': [1], 'fatiche': [1], 'loro;': [1], 'io': [1, 1, 1, 1, 1], 'sol': [1], 'uno': [1], "m'apparecchiava": [1], 'a': [1, 1, 1, 1, 1, 1, 1], 'sostener': [1], 'guerra': [1], 'sì': [1, 1, 1], 'cammino': [1], 'della': [1, 1], 'pietate,': [1], 'ritrarrà': [1], 'mente': [1], 'non': [1, 1, 1, 1], 'erra.': [1], 'dico,': [1], 'seguitando,': [1], "ch'assai": [1], 'prima': [

## Reduce Step

The Reduce step merges all intermediate values associated with the same key to produce the final result. Here, we sum the values for each key to get the total count of each word.

In [12]:
def reduce_function(grouped):
    """
    Reduce function to sum the values for each key to get the total count of each word
    """
    reduced = {}
    for key, values in grouped.items():
        reduced[key] = sum(values)
    return reduced

# Execute Reduce Step
reduced = reduce_function(grouped)
print("Reduced Data:", reduced)

Reduced Data: {'nel': 3, 'mezzo': 1, 'del': 3, 'cammin': 1, 'di': 9, 'nostra': 3, 'vita': 1, 'mi': 4, 'ritrovai': 2, 'per': 4, 'una': 2, 'selva': 1, 'oscura,': 1, 'ché': 1, 'la': 8, 'diritta': 1, 'via': 3, 'era': 2, 'smarrita.': 1, 'lo': 3, 'giorno': 2, 'se': 2, "n'andava,": 1, 'e': 8, "l'aere": 1, 'bruno': 1, 'toglieva': 1, 'li': 2, 'animai': 1, 'che': 13, 'sono': 1, 'in': 3, 'terra': 1, 'dalle': 1, 'fatiche': 1, 'loro;': 1, 'io': 5, 'sol': 1, 'uno': 1, "m'apparecchiava": 1, 'a': 7, 'sostener': 1, 'guerra': 1, 'sì': 3, 'cammino': 1, 'della': 2, 'pietate,': 1, 'ritrarrà': 1, 'mente': 1, 'non': 4, 'erra.': 1, 'dico,': 1, 'seguitando,': 1, "ch'assai": 1, 'prima': 1, 'noi': 2, 'fossimo': 1, 'al': 2, 'piè': 2, 'de': 1, "l'alta": 1, 'torre,': 1, 'occhi': 1, 'nostri': 1, "n'andar": 1, 'suso': 1, 'cima': 1, 'due': 2, 'fiammette': 1, 'i': 1, 'vedemmo': 1, 'porre,': 1, "un'altra": 1, 'da': 1, 'lungi': 1, 'render': 1, 'cenno,': 1, 'tanto': 1, "ch'a": 1, 'pena': 1, 'il': 5, 'potea': 1, "l'occhio"

## Final Result

The final result is a dictionary where keys are words and values are their respective counts.

In [13]:
# Display the final result
for word, count in reduced.items():
    print(f'{word}: {count}')

nel: 3
mezzo: 1
del: 3
cammin: 1
di: 9
nostra: 3
vita: 1
mi: 4
ritrovai: 2
per: 4
una: 2
selva: 1
oscura,: 1
ché: 1
la: 8
diritta: 1
via: 3
era: 2
smarrita.: 1
lo: 3
giorno: 2
se: 2
n'andava,: 1
e: 8
l'aere: 1
bruno: 1
toglieva: 1
li: 2
animai: 1
che: 13
sono: 1
in: 3
terra: 1
dalle: 1
fatiche: 1
loro;: 1
io: 5
sol: 1
uno: 1
m'apparecchiava: 1
a: 7
sostener: 1
guerra: 1
sì: 3
cammino: 1
della: 2
pietate,: 1
ritrarrà: 1
mente: 1
non: 4
erra.: 1
dico,: 1
seguitando,: 1
ch'assai: 1
prima: 1
noi: 2
fossimo: 1
al: 2
piè: 2
de: 1
l'alta: 1
torre,: 1
occhi: 1
nostri: 1
n'andar: 1
suso: 1
cima: 1
due: 2
fiammette: 1
i: 1
vedemmo: 1
porre,: 1
un'altra: 1
da: 1
lungi: 1
render: 1
cenno,: 1
tanto: 1
ch'a: 1
pena: 1
il: 5
potea: 1
l'occhio: 1
tòrre.: 1
poscia: 1
ch'io: 1
v'ebbi: 1
rotta: 1
persona: 1
miei: 1
compagni: 1
smarrita,: 1
venimmo: 1
d'un: 1
colle,: 1
che,: 1
pel: 1
suo: 1
forte,: 1
esso: 1
parve: 1
più: 1
salita.: 1
manto: 1
corvo: 1
tutto: 1
serra,: 1
nei: 1
sassi: 1
cerbero: 1
l'aspro