# Programma 2
### Le dipendenze dei due notebook sono specificate in _requirements.txt_, le librerie possono essere installate direttamente tramite pip e il file dei requisiti: _"pip install -r requirements.txt"_

## Annotazione Linguistica
La funzione di annotazione ricalca quella utilizzata per il programma numero 1, con la sola differenza che l'elemento _"lemmi"_ non viene aggiunto, non essendo necessario in questo programma.

In [2]:
import nltk
from nltk.corpus import wordnet
import string

class Annotated:
    def __init__(self , sentences, tokenized_sentences, tokens, pos):
        self.sentences = sentences
        self.tokenized_sentences = tokenized_sentences
        self.tokens = tokens
        self.pos = pos

def open_file(path):

    with open(path, "r", encoding = 'utf-8') as infile:
        content = infile.read()
    return content

def change_treebank(treebank_tag):

    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

def annota(testo):

    frasi_mom = nltk.tokenize.sent_tokenize(testo)
    frasi = []
    all_tokens = []
    all_pos_tagged = []

    for frase in frasi_mom:
        tokens = nltk.tokenize.word_tokenize(frase)
        no_punc_tokens = [i for i in tokens if (i not in string.punctuation) and (i != "’" and i != '”' and i != '“')]
        frasi.append(no_punc_tokens)
        all_tokens.extend(no_punc_tokens)
    
    

    all_pos_tagged = nltk.tag.pos_tag(all_tokens)

    result = Annotated(frasi_mom, frasi, all_tokens, all_pos_tagged)
    return result


corpus_annotato = annota(open_file("Corpus Articolo 2.txt"))


## I top-50 Sostantivi, Avverbi e Aggettivi più frequenti
Le funzioni _display_with_title_ e _get_top_ creano un DataFrame (la seconda funzione) e un titolo (la prima funzione) per ogni funzione che verrò invocata. _get_top_ prende in input un oggetto che ha come chiavi i token o gli n-grammi e come valori dei numeri, in questo caso la loro frequenza, n indica i top n elementi che si vogliono prendere in considerazione per frequenza decrescente, Col1 e Col2 sono invece i titoli delle colonne.

_get_pos_freq_ prende in input il corpus annotato e il PoS del quale si vogliono estrarre le parole per averne la frequenza, viene eseguita specificamente per tre PoS: Sostantivi, Avverbi e Aggettivi, come richiesto dalle specifiche.

In [3]:
from IPython.display import display, Markdown

def display_with_title(df, title):
    display(Markdown(f"### {title}"))
    display(df)

In [4]:
import pandas as pd

def get_top(obj, n, Col1, Col2):
    df = pd.DataFrame(obj.items(), columns=[Col1, Col2])
    df = df.astype({Col1: str, Col2: float})
    df = df.sort_values(by=Col2, ascending=False)
    df = df.head(n)
    df = df.reset_index(drop=True)
    return df

In [5]:
def get_pos_freq(corpus, type):
    vocabulary = []
    frequencies = {}

    if(type == 'NOUN'):
        for i in list(set(corpus.pos)):
            if(i[1].startswith('N')):
                vocabulary.append(i[0])

    elif(type == 'ADV'):
        for i in list(set(corpus.pos)):
            if(i[1].startswith('R')):
                vocabulary.append(i[0])

    elif(type == 'ADJ'):
        for i in list(set(corpus.pos)):
            if(i[1].startswith('J')):
                vocabulary.append(i[0])

    else:
        return 'Errore! Inserisci un PoS valido e ritenta'

    for i in vocabulary:
        frequencies[i] = corpus.tokens.count(i)

    return frequencies

sostantivi = get_top(get_pos_freq(corpus_annotato, 'NOUN'), 50, 'N-Grammi', 'Frequenza')
avverbi = get_top(get_pos_freq(corpus_annotato, 'ADV'), 50, 'N-Grammi', 'Frequenza')
aggettivi = get_top(get_pos_freq(corpus_annotato, 'ADJ'), 50, 'N-Grammi', 'Frequenza')

display_with_title(sostantivi, 'Sostantivi')

display_with_title(avverbi, 'Avverbi')

display_with_title(aggettivi, 'Aggettivi')

### Sostantivi

Unnamed: 0,N-Grammi,Frequenza
0,security,114.0
1,country,73.0
2,intelligence,62.0
3,United,51.0
4,attack,43.0
5,information,41.0
6,homeland,38.0
7,terror,35.0
8,people,33.0
9,States,31.0


### Avverbi

Unnamed: 0,N-Grammi,Frequenza
0,as,57.0
1,attack,43.0
2,not,43.0
3,also,35.0
4,s,20.0
5,most,17.0
6,especially,15.0
7,there,15.0
8,gather,15.0
9,about,14.0


### Aggettivi

Unnamed: 0,N-Grammi,Frequenza
0,homeland,38.0
1,terror,35.0
2,other,32.0
3,such,32.0
4,geospatial,25.0
5,necessary,22.0
6,s,20.0
7,major,20.0
8,important,19.0
9,Arab,19.0


## Top-20 n-grammi più frequenti
La funzione _get_ngrammi_ prende in input il corpus annotato e la dimensione degli n-grammi che si vogliono analizzare tramite un for implicto che prende gli n-grammi e li unisce in un'unica stringa. Rrestituisce un oggetto che contiene come chiave il n-gramma e come valore la sua frequenza nel corpus. Viene richiamata per n = [1, 2, 3, 4, 5] e poi con le funzioni definite nella cella precedente immesse in un DataFrame.

In [6]:
def get_ngrammi(corpus, n):
    
    ngrammi = [', '.join(corpus.tokens[i : i + n]) for i in range(len(corpus.tokens) - n + 1)]
    ngrammi_vocab = list(set(ngrammi))
    frequencies = {}

    for i in ngrammi_vocab:
        frequencies[i] = ngrammi.count(i)
   
    return frequencies

unigrammi = get_top(get_ngrammi(corpus_annotato, 1), 20, 'N-Grammi', 'Frequenza')
bigrammi = get_top(get_ngrammi(corpus_annotato, 2), 20, 'N-Grammi', 'Frequenza')
trigrammi= get_top(get_ngrammi(corpus_annotato, 3), 20, 'N-Grammi', 'Frequenza')
tetragrammi = get_top(get_ngrammi(corpus_annotato, 4), 20, 'N-Grammi', 'Frequenza')
quintigrammi = get_top(get_ngrammi(corpus_annotato, 5), 20, 'N-Grammi', 'Frequenza')

display_with_title(unigrammi, "Unigrammi")
display_with_title(bigrammi, "Bigrammi")
display_with_title(trigrammi, "Trigrammi")
display_with_title(tetragrammi, "Tetragrammi")
display_with_title(quintigrammi, "Quintigrammi")

### Unigrammi

Unnamed: 0,N-Grammi,Frequenza
0,the,714.0
1,of,416.0
2,to,344.0
3,and,240.0
4,in,208.0
5,that,182.0
6,is,162.0
7,a,160.0
8,The,129.0
9,security,114.0


### Bigrammi

Unnamed: 0,N-Grammi,Frequenza
0,"of, the",155.0
1,"in, the",84.0
2,"the, country",55.0
3,"the, United",38.0
4,"homeland, security",38.0
5,"United, States",31.0
6,"that, the",29.0
7,"it, is",26.0
8,"by, the",25.0
9,"to, the",23.0


### Trigrammi

Unnamed: 0,N-Grammi,Frequenza
0,"the, United, States",23.0
1,"one, of, the",22.0
2,"in, the, country",19.0
3,"some, of, the",17.0
4,"United, Arab, Emirates",16.0
5,"the, United, Arab",13.0
6,"of, geospatial, intelligence",13.0
7,"the, country, s",12.0
8,"to, ensure, that",11.0
9,"in, the, United",11.0


### Tetragrammi

Unnamed: 0,N-Grammi,Frequenza
0,"the, United, Arab, Emirates",13.0
1,"in, the, United, States",8.0
2,"It, is, important, to",6.0
3,"parts, of, the, world",6.0
4,"within, a, given, area",5.0
5,"It, is, necessary, to",5.0
6,"of, geospatial, intelligence, in",5.0
7,"is, important, to, note",5.0
8,"important, to, note, that",5.0
9,"it, is, necessary, to",5.0


### Quintigrammi

Unnamed: 0,N-Grammi,Frequenza
0,"It, is, important, to, note",5.0
1,"is, important, to, note, that",5.0
2,"geospatial, intelligence, in, homeland, security",4.0
3,"to, look, at, some, of",4.0
4,"is, necessary, to, look, at",3.0
5,"of, the, United, Arab, Emirates",3.0
6,"other, parts, of, the, world",3.0
7,"Middle, East, and, North, Africa",3.0
8,"necessary, to, look, at, some",3.0
9,"look, at, some, of, the",3.0


## Top-20 n-grammi di PoS più frequenti
La funzoine _get_ngrammi_pos_ è una funzione che, analogamente a quella precedente, calcola la frequenza degli _n-grammi_ e la restituisce in un oggetto. Dovendo però calcolare i **top 20 n-grammi di PoS** dall'array iniziale che contiene sia il token che la sua _Part of Speech_ si _"filtrano"_ solamente le Part of Speech con il primo ciclo for. Il secondo invece calcola la frequenza degli n-grammi filtrati in _only_pos_

In [7]:
def get_ngrammi_pos(corpus, n):
    
    ngrammi_pos = [tuple(corpus.pos[i : i + n]) for i in range(len(corpus.pos) - n + 1)]
    only_pos = []
    freq = {}

    for ngram_pos in ngrammi_pos:
        npos = [pos for token, pos in ngram_pos]
        only_pos.append(npos)
    
    for j in only_pos:
        freq[', '.join(j)] = only_pos.count(j) 
    
    return freq

unigrammi_pos = get_top(get_ngrammi_pos(corpus_annotato, 1), 20, 'N-Grammi', 'Frequenza')
bigrammi_pos = get_top(get_ngrammi_pos(corpus_annotato, 2), 20, 'N-grammi', 'Frequenza')
trigrammi_pos = get_top(get_ngrammi_pos(corpus_annotato, 3), 20, 'N-Grammi', 'Frequenza')

display_with_title(unigrammi_pos, "Unigrammi di PoS")
display_with_title(bigrammi_pos, "Bigrammi di PoS")
display_with_title(trigrammi_pos, "Trigrammi di PoS")



### Unigrammi di PoS

Unnamed: 0,N-Grammi,Frequenza
0,NN,1595.0
1,IN,1312.0
2,DT,1235.0
3,JJ,797.0
4,NNS,743.0
5,NNP,696.0
6,VB,454.0
7,TO,344.0
8,VBN,328.0
9,VBZ,326.0


### Bigrammi di PoS

Unnamed: 0,N-grammi,Frequenza
0,"DT, NN",619.0
1,"IN, DT",609.0
2,"NN, IN",487.0
3,"JJ, NN",311.0
4,"DT, JJ",261.0
5,"TO, VB",258.0
6,"NNP, NNP",230.0
7,"NNS, IN",222.0
8,"JJ, NNS",220.0
9,"NN, NN",163.0


### Trigrammi di PoS

Unnamed: 0,N-Grammi,Frequenza
0,"IN, DT, NN",316.0
1,"DT, NN, IN",194.0
2,"NN, IN, DT",191.0
3,"DT, JJ, NN",188.0
4,"JJ, NN, IN",128.0
5,"NNS, IN, DT",119.0
6,"IN, DT, JJ",95.0
7,"NN, IN, NN",90.0
8,"NNP, NNP, NNP",83.0
9,"JJ, NNS, IN",78.0


## Top-10 Bigrammi Aggettivo-Sostantivo ordinati per frequenza
La funzione _adj_noun_bigrams_ divide il corpus per bigrammi con annessa la PoS di ogni token, filtra poi l'array restituendo solo i bigrammi che rispettano l'ordine (Aggetivo, Sostantivo). La frequenza di questi bigrammi all'interno del corpus viene poi calcolata invece da _freq_bigrams_ che restituisce un array di due oggetti: un oggetto contenente i bigrammi e la loro frequenza (con il formato per inserirli in un DataFrame) e un altro oggetto identico ma senza una modifica per le chiavi (per richiamare e utilizzare il risultato della funzione in altre funzioni).

In [8]:
def adj_noun_bigrams(corpus):
    
    bigrammi = [corpus.pos[i : i + 2] for i in range(len(corpus.pos) - 2 + 1)]
    adj_noun = []

    for i in bigrammi:
        if(i[0][1].startswith('J') and (i[1][1].startswith('N'))):
            adj_noun.append(tuple(i))
    return adj_noun

def freq_bigrams(bigrammi):

    frequencies = {}
    raw_freq = {}

    for j in bigrammi:
        freq = raw_freq.get(j, 0) + 1
        raw_freq[j] = freq
        npos = ', '.join(f"{token} ({pos})" for token, pos in j)
        frequencies[npos] = freq

    return frequencies, raw_freq

display_with_title(get_top(freq_bigrams(adj_noun_bigrams(corpus_annotato))[0], 10, 'N-Grammi', 'Frequenza'), 'Top 10 Bigrammi Aggettivo-Nome')


### Top 10 Bigrammi Aggettivo-Nome

Unnamed: 0,N-Grammi,Frequenza
0,"geospatial (JJ), intelligence (NN)",18.0
1,"national (JJ), security (NN)",10.0
2,"regional (JJ), countries (NNS)",5.0
3,"aerial (JJ), vehicles (NNS)",5.0
4,"other (JJ), parts (NNS)",4.0
5,"new (JJ), technology (NN)",3.0
6,"geospatial (JJ), information (NN)",3.0
7,"homegrown (JJ), terrorism (NN)",3.0
8,"right (JJ), time (NN)",3.0
9,"serious (JJ), security (NN)",3.0


## Top-10 Bigrammi Aggettivo-Sostantivo ordinati per probabilità condizionata
_prob_cond_ richiama la funzione _adj_noun_bigrams_ creata nella cella precedente per avere già l'array filtrato secondo la richiesta. Utilizzo _freq_bigrams_ per prendere le frequenze dei bigrammi e, tramite il ciclo for calcolo la probabilità condizionata dei bigrammi, in t1_freq calcola la frequenza del primo token del bigramma e poi il valore da inserire nel dizionario viene calcolato direttamente all'assegnazione. Il ritorno è un array di due oggetti come nella funzione precedente.

In [9]:
def prob_cond(corpus):

    bigrams = adj_noun_bigrams(corpus)
    bi_freq = freq_bigrams(bigrams)[1]
    probab_condizionata = {}
    raw_probab_condizionata = {}

    for bigram, freq in bi_freq.items():
        key = ', '.join(f"{token} ({pos})" for token, pos in bigram)
        t1_freq = corpus.pos.count(bigram[0])
        cond_p = freq/t1_freq
        probab_condizionata[key] = cond_p
        raw_probab_condizionata[bigram] = cond_p

    return probab_condizionata, raw_probab_condizionata

display_with_title(get_top(prob_cond(corpus_annotato)[0],10, 'N-Grammi', 'Probabilità Condizionata'), 'Top-10 Bigrammi Agg.-Sost. ordinati per probabilità condizionata')


### Top-10 Bigrammi Agg.-Sost. ordinati per probabilità condizionata

Unnamed: 0,N-Grammi,Probabilità Condizionata
0,"Geospatial (JJ), intelligence (NN)",1.0
1,"high (JJ), number (NN)",1.0
2,"complex (JJ), nature (NN)",1.0
3,"private (JJ), property (NN)",1.0
4,"citizen (JJ), s (NN)",1.0
5,"federal (JJ), government (NN)",1.0
6,"injured (JJ), Hanhimäki (NNP)",1.0
7,"Several (JJ), cars (NNS)",1.0
8,"16-block (JJ), radius (NN)",1.0
9,"memorable (JJ), acts (NNS)",1.0


## Top-10 Bigrammi Aggettivo-Sostantivo ordinati per probabilità congiunta
Sfruttando la funzione della probabilità condizionata della cella precedente, la funzione _prob_cong_ caclola la probabilità congiunta dei bigrammi. Nel _for_ viene preso il primo token del bigramma e se ne calcola la frequenza, dopo al dizionario viene aggiunta la chiave (il bigramma) e la probabilità congiunta: $P(A)*P(B|A)$

In [10]:
def prob_cong(corpus):
    bigrams = prob_cond(corpus)[1]
    result = {}

    for big, prob in bigrams.items():
        prob_first = corpus.pos.count(tuple(big[0]))/len(corpus.pos)
        key = ', '.join(f"{token} ({pos})" for token, pos in big)
        result[key] = prob * prob_first

    return result
get_top(prob_cong(corpus_annotato), 10, 'N-Grammi', 'Probabilità Congiunta')
    

Unnamed: 0,N-Grammi,Probabilità Congiunta
0,"geospatial (JJ), intelligence (NN)",0.001794
1,"national (JJ), security (NN)",0.000997
2,"aerial (JJ), vehicles (NNS)",0.000498
3,"regional (JJ), countries (NNS)",0.000498
4,"other (JJ), parts (NNS)",0.000399
5,"criminal (JJ), gangs (NNS)",0.000299
6,"homegrown (JJ), terrorism (NN)",0.000299
7,"major (JJ), challenge (NN)",0.000299
8,"geographic (JJ), information (NN)",0.000299
9,"geospatial (JJ), information (NN)",0.000299


## Top-10 Bigrammi Aggettivo-Sostantivo ordinati per Mutual Information e Local MI
_get_mi_ prende in input il corpus e una stringa 'LMI' o 'MI' a seconda di cosa si vuole calcolare. Le operazioni nel for sono le stesse effettuate per la funzione di prima, in modo da calcolare la frequenza del primo e del secondo token. Successivamente calcola la MI e la aggiunge al dizionario reuslt. Se si richiede la Mutual Information viene restituito il risultato subito, altrimenti calcolo la LMI tramite un altro for e ritorno quella risultante.

In [11]:
import math
def get_mi(corpus, infotype):
    bigrams = adj_noun_bigrams(corpus)
    bi_freq = freq_bigrams(bigrams)[1]
    
    result = {}
    result_mi = {}
    result_lmi = {}

    for big, freq in bi_freq.items():
        token1 = big[0]
        token2 = big[1]
        freq1 = corpus.pos.count(tuple(token1))
        freq2 = corpus.pos.count(tuple(token2))
        MI = math.log((freq*len(corpus.pos))/(freq1*freq2), 2)
        result[big] = MI

    if(infotype == 'MI'):
        for k, v in result.items():
            key = ', '.join(f"{token} ({pos})" for token, pos in k)
            result_mi[key] = v
        return result_mi

    elif(infotype == 'LMI'):
        for big, mi in result.items():
            lmi = mi * bi_freq[big]
            key = ', '.join(f"{token} ({pos})" for token, pos in big)
            result_lmi[key] = lmi
        return result_lmi

display_with_title(get_top(get_mi(corpus_annotato, 'MI'), 10, 'Bigrammi', 'MI'), 'Mutual Information')
display_with_title(get_top(get_mi(corpus_annotato, 'LMI'), 10, 'Bigrammi', 'LMI'), 'Local Mutual Information')

### Mutual Information

Unnamed: 0,Bigrammi,MI
0,"official (JJ), residence (NN)",13.292609
1,"Aerial (JJ), Vehicles (NNP)",13.292609
2,"reactionary (JJ), tactic (NN)",13.292609
3,"preferred (JJ), destinations (NNS)",13.292609
4,"16-block (JJ), radius (NN)",13.292609
5,"young (JJ), immigrant (NN)",13.292609
6,"acceptable (JJ), definition (NN)",13.292609
7,"global (JJ), level (NN)",13.292609
8,"zero-sum (JJ), game (NN)",13.292609
9,"19-tonne (JJ), cargo (NN)",13.292609


### Local Mutual Information

Unnamed: 0,Bigrammi,LMI
0,"geospatial (JJ), intelligence (NN)",126.148229
1,"national (JJ), security (NN)",59.742924
2,"aerial (JJ), vehicles (NNS)",47.426272
3,"regional (JJ), countries (NNS)",37.688609
4,"criminal (JJ), gangs (NNS)",31.666931
5,"other (JJ), parts (NNS)",28.490737
6,"homegrown (JJ), terrorism (NN)",26.565612
7,"major (JJ), challenge (NN)",25.666931
8,"surface-to-air (JJ), missiles (NNS)",24.585218
9,"analyze (JJ), manage (NN)",24.585218


### Bigrammi comuni alle classifiche di MI e LMI
La prima funzione ordina le due classifiche e prende solo i primi 10 elementi. Poi _common_bigrams_ fa un'intersezione tra le due classifiche e restituisce, qualora ve ne fossero, i bigrammi comuni.

In [12]:
def get_top_n_sorted(d, n):
    return sorted(d.items(), key=lambda item: item[1], reverse=True)[:n]

def common_bigrams(corpus):
    top_10_mi = get_top_n_sorted(get_mi(corpus, 'MI'), 10)
    top_10_lmi = get_top_n_sorted(get_mi(corpus, 'LMI'), 10)
    common_bi = set([bigram for bigram, _ in top_10_mi]).intersection([bigram for bigram, _ in top_10_lmi])
    return {' '.join(common_bi): len(common_bi)}

bi_comuni = get_top(common_bigrams(corpus_annotato), 1, 'Bigramma', 'Frequenza')
display_with_title(bi_comuni, 'Bigrammi comuni alle top-10 dei bigrammi per MI e LMI')

### Bigrammi comuni alle top-10 dei bigrammi per MI e LMI

Unnamed: 0,Bigramma,Frequenza
0,,0.0


## Calcolo Media della Distribuzione di Frequenza dei Token per Frase
Data la distribuzione di frequenza dei token: $\frac {\sum_0^n(freq(token_n))}{n}$ dove n è la lunghezza in token della frase, la funzione prende in input il corpus e quale vaore si vuole ritornare (max o min secondo il valore della distribuzione). Il primo for filtra le frasi controllando che siano lunghe almeno 10 token e non più di 20. Il secondo invece itera in un arrai contenente le frasi _filtrate_ e calcola la media della distribuzione di frequenza dei token per ogni frase, infine aggiunge a un dizionario la frase e il valore appena calcolato. Le clausole if decidono, a seconda di _min_max_ quale risultato ritornare.

In [13]:
def distr_frasi(corpus, min_max = None):
    filtered_sent = []
    frequencies = get_ngrammi(corpus, 1)
    distr_media = {}
    result = {}

    for i in corpus.tokenized_sentences:
        if(10 <= len(i) <= 20):
            count = sum(1 for token in i if corpus.tokens.count(token) >= 2)
            if(count >= len(i)//2):
                filtered_sent.append(i)
    for j in filtered_sent:
        distr = 0
        key = ' '.join(j)
        for k in j:
            distr += frequencies[k]
        distr_media[key] = (distr/len(j))

    if(min_max == 'min'):
        result[min(distr_media, key=distr_media.get)] = min(distr_media.values())
        return result
    elif(min_max == 'max'):
        result[max(distr_media, key=distr_media.get)] = max(distr_media.values())
        return result
    elif(min_max is None):
        return distr_media
        
display_with_title(get_top(distr_frasi(corpus_annotato, 'max'), 1, 'Frase', 'Media della Distribuzione di Frequenza'), 'Frase con Media della Distr. di Frequenza Massima')
display_with_title(get_top(distr_frasi(corpus_annotato, 'min'), 1, 'Frase', 'Media della Distribuzione di Frequenza'), 'Frase con Media della Distr. di Frequenza Minima')

### Frase con Media della Distr. di Frequenza Massima

Unnamed: 0,Frase,Media della Distribuzione di Frequenza
0,It provided a detailed background of the topic...,229.117647


### Frase con Media della Distr. di Frequenza Minima

Unnamed: 0,Frase,Media della Distribuzione di Frequenza
0,Anyone who makes national policy decision figh...,27.285714


## Markov II Ordine
Dato che il risultato di get_ngrammi restituisce un dizionario con le frequenze e non solamente gli n-grammi richiesti ho creato una funzione apposita per farlo: _ngrammi_frasi_.
Nella funzione che segue, il modello di Markov del secondo ordine, calcola la lunghezza del corpus, le frequenze dei token, dei bigrammi e trigrammi. Nel primo ciclo for si filtrano di nuovo le frasi per lunghezza $10<length<20$. Il secondo for applica esattamente il metodo manuale per calcolare la probabilità di una frase secondo il modello, moltiplica la frequenza del primo token per quella condizionata del primo bigramma, successivamente il for nested continua aggiungendo il trigramma arrivando fino a fine frase. Ogni volta la frase viene salvata come chiave nel dizionario res e la probabilità inserita come suo valore. Avendo costruito la funzione _get_ngrammi_ in modo simile alla funzione _FreqDist_ di **nltk** viene utilizzata questa.

In [14]:
def ngrammi_frasi(frase, n):
    
    ngrammi = [', '.join(frase[i : i + n]) for i in range(len(frase) - n + 1)]
    return ngrammi

In [15]:
def Markov2Order(corpus):
    filtered_sent = []
    len_c = len(corpus.tokens)
    freq_token = get_ngrammi(corpus, 1)
    bigrams_freq = get_ngrammi(corpus, 2)
    trigram_freq = get_ngrammi(corpus, 3)
    res = {}

    for i in corpus.tokenized_sentences:
        if(10 <= len(i) <= 20):
            count = sum(1 for token in i if corpus.tokens.count(token) >= 2)
            if(count >= len(i)//2):
                filtered_sent.append(i)

    for i in filtered_sent:
        bi_frase = ngrammi_frasi(i, 2)
        tri_frase = ngrammi_frasi(i, 3)
        p = (freq_token[i[0]]/len_c)*(bigrams_freq[bi_frase[0]]/freq_token[i[0]])
        for trigram, bigram in zip(tri_frase, bi_frase):
            p *= trigram_freq[trigram]/bigrams_freq[bigram]

        res[' '.join(i)] = p

    return {max(res, key=res.get): max(res.values())}

display_with_title(get_top(Markov2Order(corpus_annotato), 1, 'Frasi', 'Probabilità'), 'Frase con probabilità più alta secondo il modellodi Markov del secondo ordine costruito a partire dal corpus')

### Frase con probabilità più alta secondo il modellodi Markov del secondo ordine costruito a partire dal corpus

Unnamed: 0,Frasi,Probabilità
0,Anyone who makes national policy decision figh...,0.0001


## NE
Per avere un array contenente le Named Entity dalla funzione _nltk.ne_chunk_ ho creato la funzione _get_NE_, tramite un ciclo for memorizza l'entità e il suo tipo inserendole come tupla nell'array che verrà poi restituito. La funzione _freq_NE_ sfrutta la funzione precedente per ottenere le Named Entities dal corpus, poi ne calcola la frequenza con un ciclo for inserendo i risultati in un dizionario.

In [16]:
def get_NE(corpus):
    NE_tree = nltk.ne_chunk(corpus.pos)
    NE = []

    for node in NE_tree:
        if hasattr(node, 'label'):
            entity = " ".join([token for token, POS in node.leaves()])
            entity_type = node.label()
            NE.append((entity, entity_type))

    return NE

def freq_NE(corpus, ent_type):

    tree = get_NE(corpus)
    res = {}
    for entity, entity_type in tree:
        if(entity_type == ent_type):
            res[entity] = tree.count((entity, entity_type))
    return res

display_with_title(get_top(freq_NE(corpus_annotato, 'PERSON'), 15, 'PERSON', 'Frequenza'), 'Top 15 Elementi per "Person"')
display_with_title(get_top(freq_NE(corpus_annotato, 'GPE'), 15, 'GPE', 'Frequenza'), 'Top 15 Elementi per "GPE"')
display_with_title(get_top(freq_NE(corpus_annotato, 'ORGANIZATION'), 15, 'ORGANIZATION', 'Frequenza'), 'Top 15 Elementi per "Organization"')

### Top 15 Elementi per "Person"

Unnamed: 0,PERSON,Frequenza
0,Al Qaeda,6.0
1,Hanhimäki Blumenau,5.0
2,Arab,2.0
3,Data,2.0
4,Miller,2.0
5,Homegrown Terrorism,1.0
6,Islam,1.0
7,Breivik,1.0
8,Jenkins Croitoru Crooks,1.0
9,Others,1.0


### Top 15 Elementi per "GPE"

Unnamed: 0,GPE,Frequenza
0,United States,31.0
1,Iraq,10.0
2,American,8.0
3,Middle East,7.0
4,North,6.0
5,Dubai,4.0
6,Afghanistan,4.0
7,Russia,4.0
8,France,2.0
9,Homeland,2.0


### Top 15 Elementi per "Organization"

Unnamed: 0,ORGANIZATION,Frequenza
0,GEOINT,22.0
1,United Arab Emirates,11.0
2,ISIL,8.0
3,MENA,6.0
4,Geospatial,5.0
5,ISIS,5.0
6,GIS,5.0
7,UAE,5.0
8,United Arab,4.0
9,GCC,4.0
