# Raggruppamento automatizzato di emendamenti simili del disegno di legge del Garante per la protezione dei dati personali e dei diritti umani

In questo elaborato vengono raggruppati e analizzati gli emendamenti simili
del disegno legge del "garante della privacy" ed eliminate quelle superflue. 
Istituzione del Garante per la protezione dei dati personali e dei diritti umani attraverso l'assegnazione al Garante per la protezione dei dati personali dei compiti di istituzione nazionale indipendente per la protezione e promozione dei diritti umani.
Nell'ambito tecnico lo sviluppo è simile al file cirinna.ipynb cambia solo la fonte del sito "https://www.senato.it/leg/19/BGT/Schede/Ddliter/testi/56026_testi.htm" e la destinazione del file json chiamato EmandamentiGarante.json
In questo caso non ci sono emendamenti da scarica quindi si stampa una stringa "Vuoto!, non ci sono emendamenti in merito" ed il programma termina.

In [18]:
import os
import re
from itertools import combinations
import xml.etree.ElementTree as ET

from matplotlib import pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage

In [19]:
%matplotlib inline

In [20]:
DATA_FOLDER = 'data/garante'
NAMESPACE = {'an': 'http://docs.oasis-open.org/legaldocml/ns/akn/3.0/CSD03'}
ALPHANUM_REGEX = re.compile('[\W+]', re.UNICODE)

In [21]:
def to_tokens(s):
    return set(ALPHANUM_REGEX.sub(' ', s).lower().split())

In [22]:
def jaccard_distance(x, y):    
    return 1 - (len(x['tokens'] & y['tokens']) / len(x['tokens'] | y['tokens']))

In [23]:
amendments = []

for filename in sorted(os.listdir(DATA_FOLDER)):
    if filename.startswith('.'):
        continue

    tree = ET.parse(os.path.join(DATA_FOLDER, filename))

    _id = tree.find('.//an:FRBRnumber', NAMESPACE).get('value')
    authors = [el.text for el in tree.findall('.//an:docProponent', NAMESPACE)]
    raw = ' '.join(tree.find('.//an:amendmentContent', NAMESPACE).itertext())
    tokens = to_tokens(raw)

    amendments.append({'_id': _id, 'authors': authors, 'raw': raw, 'tokens': tokens})

In [24]:
distances = [jaccard_distance(x, y) for x, y in combinations(amendments, 2)]
labels = [amendment['_id'] for amendment in amendments]

In [47]:
first_amendments = amendments[:100]
first_distances = [jaccard_distance(x, y) for x, y in combinations(first_amendments, 2)]

In [48]:

Z_first = linkage(first_distances, method='complete')


ValueError: The number of observations cannot be determined on an empty distance matrix.

In [None]:
Z_all = linkage(distances, method='complete')

ValueError: The number of observations cannot be determined on an empty distance matrix.

In [None]:
plt.figure(figsize=(25, 250))
plt.title('Z_all')
dendrogram(
    Z_all,
    labels=labels,
    orientation='right',
    leaf_font_size=12.,
)
plt.show()

In [None]:
for i in [77, 72, 68, 64, 60, 56, 52, 48, 92, 89, 84, 80, 96]:
    print('{i}: {snippet}'.format(i=i, snippet=first_amendments[i]['raw'][:76]))

In [None]:
for i in [78, 73, 69, 65, 61, 57, 53, 49, 93, 90, 85, 81]:
    print('{i}: {snippet}'.format(i=i, snippet=first_amendments[i]['raw'][:76]))

In [None]:
import json
nameFile = "EmendamentiZan.json"
#print(first_amendments)
data_str = json.dumps(first_amendments, default=lambda x: list(x) if isinstance(x, set) else x)
# Writing to sample.json

with open(nameFile, "w") as outfile:
    outfile.write(data_str)

In [None]:
distances = [jaccard_distance(x, y) for x, y in combinations(amendments, 2)]

In [None]:
Z_all = linkage(distances, method='complete')

In [None]:
plt.figure(figsize=(25, 10))
plt.title('Z_all')
dendrogram(
    Z_all,
    no_labels=True,
)
plt.show()