In [19]:
'''
Definizione delle funzioni di supporto
'''

def remove_number_some_punctuation_marks(row):
    '''
    remove_number:   rimuove i caratteri numerici e il carattere '"' dalla stringa e la trasforma in lower-case
    '''
    lowercase = row.lower()
    res = ""
    
    for char in lowercase:
        if not ('0' <= char <= '9' or char == '"'):
            res += char

    return res

def remove_number_punctuation_marks(row):
    '''
    remove_number:   rimuove i caratteri numerici dalla stringa e i segni di punteggiatura 
                     e la trasforma in lower-case
    '''
    
    lowercase = row.lower()
    res = ""
    
    for char in lowercase:
        if 'a' <= char <= 'z' or char == ' ' or char == '-' or char == "'":
            res += char

    return res

In [74]:
'''
Definizione delle funzioni che calcolano le metriche per la Authorship Attribution
'''

def word_counter(RDD):
    '''
    word_counter:   è la funzione che dato un RDD conta il numero di volte che compare una parola.
                    Inoltre per risparmiare operazioni ritorna anche l'ATTRIBUTO VOCABULARY_SIZE
    '''
    word_counter = (RDD.flatMap(lambda x: x)
                .map(lambda x: (x,1))
                .reduceByKey(lambda a,b: a+b)
                .sortBy(lambda x: -x[1])
               )
    return word_counter.collect(), len(word_counter.collect())

def text_length_in_words(word_count):
    '''
    text_length_in_words:   calcola il numero di parole del testo usando word_counter
    '''
    s = 0
    for couple in word_count:
        s += couple[1]
    return s

def ratio_V_T(voc_size, text_len):
    '''
    ratio_V_T:   calcola il rapporto fra la dimensione del vocabolario e il numero totale di parole
                 nel testo
    '''
    return voc_size / text_len

def hentropy(word_count,text_len):
    import math
    '''
    hentropy:   funzione che calcola l'entropia usando l'Entropia di Gibbs. L'unica differenza
                è la mancanza della costante di Boltzmann
    '''
    s = 0
    
    for couple in word_count:
        s += (couple[1]/text_len) * math.log2(couple[1]/text_len)
    
    return -s

def maximum_sentence_length(sentence_collection):
    '''
    maximum_sentence_length:   funzione che calcola la lunghezza (in numero di parole) della frase
                               più lunga
    '''
    _max = float("-inf")
    
    for sentence in sentence_collection:
        if len(sentence) > _max:
            _max = len(sentence)
    return _max

def minimum_sentence_length(sentence_collection):
    '''
    minimum_sentence_length:   funzione che calcola la lunghezza (in numero di parole) della frase
                               più corta
    '''
    _min = float("inf")
    
    for sentence in sentence_collection:
        if len(sentence) < _min and len(sentence) > 0:
            _min = len(sentence)
    return _min

def average_sentence_length(sentence_collection):
    '''
    average_sentence_length:   funzione che calcola la lunghezza media(in numero di parole)
                               delle frasi del testo
    '''
    _sum = 0
    
    for sentence in sentence_collection:
        _sum += len(sentence)
    return _sum / len(sentence_collection)


def prob_of_the_most_freq_sentence_len(sentence_collection):
    '''
    prob_of_the_most_freq_sentence_len:   funzione che calcola la probabilità
            della lunghezza della frase più frequente
    '''
    
    # coppia (lunghezza_frase, numero_frasi_con_"lunghezza_frase")
    d = dict()
    
    for sentence in sentence_collection:
        try:
            d[len(sentence)] += 1
        except:
            d[len(sentence)] = 1
    
    _sum = 0
    _max_freq = 0
    
    for key in d:
        if _max_freq < d[key]:
            _max_freq = d[key]

        _sum += d[key]
    
    return _max_freq / _sum

def prob_distr_of_30_most_common_words(word_count):
    '''
    prob_distr_of_30_most_common_words: funzione che ritorna una lista di probabilità
                                        delle 30 parole di uso più comune
    '''
    # word_count è ordinato
    
    res = []
    
    _sum = 0
    
    for couple in word_count:
        _sum += couple[1]
    
    for i in range(0, 30):
        res.append((word_count[i][0], word_count[i][1] / _sum))
        
    return res

def prob_of_The(word_count):
    '''
    prob_of_The: funzione che ritorna la probabilità di "the" 
    '''
    _sum = 0
    value = 0
    for couple in word_count:
        if couple[0] == "the":
            value = couple[1]
        _sum += couple[1]
    
    return value / _sum

def prob_of_comma(sentences_collection):
    '''
    prob_of_The: funzione che ritorna la probabilità che capiti una virgola
    '''
    
    _sum = 0
    value = 0
    for sentence in sentences_collection:
        for word in sentences:            
            if "," in word:
                value += 1
            _sum += 1

    return value / _sum

def prob_of_the_most_common_word(word_count):
    '''
    prob_of_the_most_common_word: funzione che ritorna la probabilità della parola più
                                  comune escudendo "the" e "and"
    '''
    # distribuzione di probabilità
    pd = prob_distr_of_30_most_common_words(word_count)
    
    for couple in pd:
        if couple[0] != "and" and couple[0] != "the":
            return couple
        


def MCW_except_the(word_count):
    '''
    MCW_except_the: funzione che ritorna la parola più comune a eccezione di "the"
    '''
    for couple in word_count:
        if couple[0] != "the":
            return couple[0]
        
def avg_distance_consec_appear_MCW(data):
    '''
    avg_distance_consec_appear_MCW: funzione che calcola la distanza media di due parole MCW consecutive.
                                    MCW indica la parola di uso più comune escludendo la parola "the"
    '''
    MCW = MCW_except_the(word_counter(data)[0])
    
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in data.collect():
        for word in sentence:
            if MCW == word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1
    _avg = 0
    
    for d in ds:
        _avg += d
    
    return _avg / len(ds)

def min_distance_consec_appear_MCW(data):
    MCW = MCW_except_the(word_counter(data)[0])
    
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in data.collect():
        for word in sentence:
            if MCW == word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1

    return min(ds)

def max_distance_consec_appear_MCW(data):
    MCW = MCW_except_the(word_counter(data)[0])
    
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in data.collect():
        for word in sentence:
            if MCW == word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1

    return max(ds)

def avg_distance_consec_appear_of_The(data):
    '''
    avg_distance_consec_appear_MCW: funzione che calcola la distanza media di due parole "the" consecutive.
                                    MCW indica la parola di uso più comune escludendo la parola "the"
    '''    
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in data.collect():
        for word in sentence:
            if "the" == word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1
    _avg = 0
    
    for d in ds:
        _avg += d
    
    return _avg / len(ds)

def min_distance_consec_appear_of_The(data):
    '''
    min_distance_consec_appear_of_The: funzione che calcola la distanza minima di due parole "the" consecutive.
                                       MCW indica la parola di uso più comune escludendo la parola "the"
    ''' 
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in data.collect():
        for word in sentence:
            if "the" == word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1

    return min(ds)

def max_distance_consec_appear_of_The(data):
    '''
    max_distance_consec_appear_of_The: funzione che calcola la distanza massima di due parole "the" consecutive.
                                       MCW indica la parola di uso più comune escludendo la parola "the"
    ''' 
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in data.collect():
        for word in sentence:
            if "the" == word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1

    return max(ds)


def avg_distance_consec_appear_of_comma(senteces_collection):
    '''
    avg_distance_consec_appear_of_comma: funzione che calcola la distanza media di due consecutive virgole.
    '''    
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in senteces_collection:
        for word in sentence:
            if "," in word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1
    _avg = 0
    
    for d in ds:
        _avg += d
    
    return _avg / len(ds)

def min_distance_consec_appear_of_comma(senteces_collection):
    '''
    min_distance_consec_appear_of_comma: funzione che calcola la distanza minima di due consecutive virgole.
    ''' 
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in senteces_collection:
        for word in sentence:
            if "," in word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1

    return min(ds)

def max_distance_consec_appear_of_comma(senteces_collection):
    '''
    max_distance_consec_appear_of_comma: funzione che calcola la distanza massima di due consecutive virgole.
    ''' 
    ds = []
    ds.append(1) # inizializziamo la lista delle distanze
    
    for sentence in senteces_collection:
        for word in sentence:
            if "," in word:
                ds.append(1)
            else:
                ds[len(ds) - 1] += 1

    return max(ds)

In [21]:
# CARICAMENTO DATASET

rawData = sc.textFile("datasets/Anthony Trollope___The O'Conors of Castle Conor from Tales from all Countries.txt")

# RIMUOVIAMO NUMERI + SEGNI DI PUNTEGGIATURA
data = (rawData.filter(bool)                    # rimuoviamo le stringhe vuote
        .map(remove_number_punctuation_marks)
        .map(lambda x : ' '.join(x.split()))    # rimuoviamo diversi spazi bianchi con uno
        .map(lambda row : row.split(" "))
       )

# POSIAMO I DATI NELLA CACHE
data.persist()

PythonRDD[26] at RDD at PythonRDD.scala:53

In [22]:
# word_counter, e ATTRIBUTO vocabulary_size
word_count, voc_size = word_counter(data)

In [23]:
# SOMMA LE FREQUENZE DENTRO word_count PER TROVARE L'ATTRIBUTO text_length_in_words
text_len = text_length_in_words(word_count)

In [24]:
# ATTRIBUTO definito rapporto vocabulary_size / text_length_in_words
V_T = ratio_V_T(voc_size, text_len)

In [25]:
# ENTROPIA misura formalmente la quantità di disordine
hentropy(word_count,text_len)

8.639377320109679

In [None]:
# linee del file in input
lines = (rawData.filter(bool)
            .map(remove_number_some_punctuation_marks)
            .map(lambda x : ' '.join(x.split()))
            )

# METTO TUTTO IL TESTO IN UNA STRINGA UNICA
text = ''
for s in lines.collect():
    text += s + ' '

text = text.replace("?", ".")
text = text.replace("!", ".")

# LISTA DI STRINGHE. ESSE SONO FRASI
sentences = text.split(".")

# LISTA DI LISTE CHE CONTENGONO LE PAROLE DI UNA FRASE
senteces_collection = sc.parallelize(sentences).map(lambda x: x.split()).collect()

#print(senteces_collection)

# 81
print(maximum_sentence_length(senteces_collection))
# 1
print(minimum_sentence_length(senteces_collection))
# 17.473563218390805
print(average_sentence_length(senteces_collection))

In [49]:
prob_of_the_most_freq_sentence_len(senteces_collection)

0.06589147286821706

In [26]:
prob_distr_of_30_most_common_words(word_count)

[('the', 0.04513157894736842),
 ('i', 0.03605263157894737),
 ('and', 0.0325),
 ('to', 0.02368421052631579),
 ('of', 0.02131578947368421),
 ('a', 0.019736842105263157),
 ('my', 0.01631578947368421),
 ('that', 0.016052631578947367),
 ('in', 0.015921052631578947),
 ('was', 0.015394736842105263),
 ('said', 0.012236842105263157),
 ('he', 0.01118421052631579),
 ('as', 0.011052631578947368),
 ('but', 0.009736842105263158),
 ('at', 0.009605263157894737),
 ('you', 0.008947368421052631),
 ('for', 0.008815789473684211),
 ('it', 0.008552631578947369),
 ('me', 0.008421052631578947),
 ('had', 0.007894736842105263),
 ('with', 0.007236842105263158),
 ('not', 0.00631578947368421),
 ('all', 0.0061842105263157894),
 ("o'conor", 0.0061842105263157894),
 ('his', 0.005789473684210527),
 ('were', 0.005789473684210527),
 ('on', 0.005394736842105263),
 ('so', 0.005),
 ('there', 0.004736842105263158),
 ('we', 0.004736842105263158)]

In [29]:
prob_of_the_most_common_word(word_count)

('i', 0.03605263157894737)

In [35]:
avg_distance_consec_appear_MCW(data)

27.64

In [37]:
min_distance_consec_appear_MCW(data)

2

In [38]:
max_distance_consec_appear_MCW(data)

176

In [40]:
avg_distance_consec_appear_of_The(data)

22.09593023255814

In [41]:
min_distance_consec_appear_of_The(data)

1

In [42]:
max_distance_consec_appear_of_The(data)

115

In [55]:
prob_of_The(word_count)

0.04513157894736842

In [69]:
avg_distance_consec_appear_of_comma(senteces_collection)

14.675675675675675

In [70]:
min_distance_consec_appear_of_comma(senteces_collection)

1

In [71]:
max_distance_consec_appear_of_comma(senteces_collection)

92

In [75]:
prob_of_comma(senteces_collection)

0.5852713178294574