In [326]:
import requests
import re
import string
import mmap
import numpy as np
import pandas as pd
from collections import Counter

import spacy as sp
from spacy.matcher import Matcher

## Download file

In [325]:
url = 'https://tools.wmflabs.org/wsexport/tool/book.php?lang=it&format=txt&page=Dichiarazione_Universale_dei_Diritti_dell%2527Uomo_-_UNGA%2C_10_dicembre_1948'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'}
result = requests.get(url, allow_redirects=True, headers=headers)
testo = result.text
file_name = "dichiarazione_universale_dei_diritti_dell_uomo.txt"
with open(file_name, 'wb') as t:
    t.write(result.content)

## Open txt file and filtering

In [336]:
def start_end_parse(counter,start,end):
    if counter > start and counter < end:
        return True
    else:
        return False 

lista_frasi = []
with open(file_name, "r+b") as f:
    mm = mmap.mmap(f.fileno(), 0)
    row = 'XXXX'
    cnt = 0
    while len(row) > 0:
        row = mm.readline().decode('utf-8')
        if not re.match("\s+",row) and start_end_parse(cnt,29,360) and not re.match("^Articolo\W\d+$",row):
            lista_frasi.append(row.strip())  
        cnt+=1
        
testo_new = ' '.join(lista_frasi) 
testo_new_5_par = ' '.join(lista_frasi[:5])

## Tokenizzazione

In [337]:
nlp_it = sp.load("it_core_news_sm")
doc = nlp_it(testo_new)
doc_5_par = nlp_it(testo_new_5_par)
tokens = [tok.text for tok in doc if not tok.is_stop and not tok.is_punct]
tokens_no_prep = [tok for tok in tokens if len(tok)>1 and tok.isalpha()]
#tokens_lemma = [tok.lemma_ for tok in doc if not tok.is_stop and not tok.is_punct and len(tok.text)>1 and tok.text.isalpha()] 

## 1) Estrazione dei parametri numerici più significativi del testo

In [291]:
print("La lunghezza del testo è {}".format(len(testo_new)))
print("La lunghezza media di una frase {:.2f}".format(np.mean([len(fr) for fr in list(doc.sents)])))
print("Il numero di parole utilizzate sono {}".format(len(tokens)))
print("Il numero di parole uniche utilizzate sono {}".format(len(set(tokens))))
print("Il numero di frasi utilizzate sono {}".format(len(list(doc.sents))))

La lunghezza del testo è 11530
La lunghezza media di una frase 27.14
Il numero di parole utilizzate sono 959
Il numero di parole uniche utilizzate sono 469
Il numero di frasi utilizzate sono 72


## 2) Estrazione del vocabolario

In [338]:
voc_base = Counter(tokens)
voc_base2 = Counter(tokens_no_prep) # vocabolario senza preposizioni
#voc_base3 = Counter(tokens_lemma) # vocabolario dei lemmi senza preposizioni

display_voc(voc_base,20,15)
display_voc(voc_base2,20,15)
#display_voc(voc_base3,20,15)


Parola          Occorrenze
---------------------------
e               85
diritto         40
individuo       38
o               27
diritti         21
libertà         21
l'              13
i               12
potrà           9
umani           8
è               8
Nazioni         8
Considerato     7
istruzione      7
famiglia        6
dell'           6
sociale         6
dignità         5
Unite           5
fondamentali    5

Parola          Occorrenze
---------------------------
diritto         40
individuo       38
diritti         21
libertà         21
potrà           9
umani           8
Nazioni         8
Considerato     7
istruzione      7
famiglia        6
sociale         6
dignità         5
Unite           5
fondamentali    5
rispetto        5
presente        5
società         5
Dichiarazione   5
internazionale  5
religione       5


## 3) Part of Speech Tagging

In [258]:
#Part of Speech Tagging intero testo
L=[]
for token in doc:
    L.append([token, 
              token.lemma_, 
              token.pos_, 
              token.tag_,
              #token.is_alpha, 
              #token.is_punct, 
              #token.is_space,
              #token.is_stop
             ])
x = pd.DataFrame(L,columns=["word",
                            "lemma",
                            "pos",
                            "tag",
                            #"is_alpha","is_punct","is_space","is_stop"
                           ])
#x.to_csv("part_of_speech_tagging.csv",index = False)

#Part of Speech Tagging dei primi 5 paragrafi
L5=[]
for token in doc_5_par:
    L5.append([token, 
              token.lemma_, 
              token.pos_, 
              token.tag_,
              #token.is_alpha, 
              #token.is_punct, 
              #token.is_space,
              #token.is_stop
             ])
x5 = pd.DataFrame(L5,columns=["word",
                            "lemma",
                            "pos",
                            "tag",
                            #"is_alpha","is_punct","is_space","is_stop"
                           ])
x5.to_csv("part_of_speech_tagging_5_par.csv",index = False)

## 4) Estrazione entità nominali

In [320]:
entita = [ent.text for ent in doc.ents]
voc_entita = Counter(entita)
display_voc(voc_entita,20,20)


Parola               Occorrenze
--------------------------------
Nazioni Unite        5
Dichiarazione        5
Stato                4
Nazioni              3
Stati membri         2
Statuto              1
ASSEMBLEA GENERALE   1
Uomini               1


## 5) Estrazione forme multi-word di significato

In [323]:
my_matcher = Matcher(doc.vocab)
pattern_na = [{"POS": "NOUN"}, {"POS": "ADJ"}]
my_matcher.add("NOME_AGGETTIVO", None, pattern_na)
pattern_nn = [{"POS": "NOUN"}, {"POS": "NOUN"}]
my_matcher.add("NOME_NOME", None, pattern_nn)
pattern_nan = [{"POS": "NOUN"}, {"POS": "ADP"}, {"POS": "NOUN"}]
my_matcher.add("NOME_ADP_NOME", None, pattern_nan)

matches = my_matcher(doc)
out = []
for mathc_id, start, end in matches:
        span = doc[start:end]
        out.append(span.text)

voc_multi_words = Counter(out)
display_voc(voc_multi_words,20,30)


Parola                         Occorrenze
------------------------------------------
diritti umani                  6
diritto alla libertà           4
esseri umani                   2
tenore di vita                 2
Stati membri                   2
libertà fondamentali           2
diritto alla sicurezza         2
riconoscimento della dignità   1
membri della famiglia          1
famiglia umana                 1
fondamento della libertà       1
atti di barbarie               1
libertà di parola              1
norme giuridiche               1
sviluppo di rapporti           1
rapporti amichevoli            1
valore della persona           1
persona umana                  1
organo della società           1
misure progressive             1
