In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
import json
import numpy as np
from numpy import random
import requests
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
import pandas as pd

In [None]:
dataset_path = "/content/gdrive/MyDrive/Jacopo/dataset/join_d1.json"

Testing 3 different models for generation of paraphrases


1.   it5/it5-base-news-summarization
[ https://huggingface.co/it5/it5-base-news-summarization ]
2.   it5/it5-base-informal-to-formal
[ https://huggingface.co/it5/it5-base-informal-to-formal ]
3.   it5/it5-small-formal-to-informal
[ https://huggingface.co/it5/it5-small-formal-to-informal ]



In [None]:
dataset_file = open(dataset_path)
dataset = json.load(dataset_file)
dataset_file.close()

In [None]:
# selezioniamo 10 statement a caso, dei quali genereremo una parafrasi
# con ognuno dei modelli
x = random.randint(len(dataset), size=(10))
x

array([1830, 1275,   45, 2918, 2553, 2062, 2706, 2541, 1728, 1984])

In [None]:
# gli articoli non cambiano tra le esecuzioni
x = [1830, 1275,   45, 2918, 2553, 2062, 2706, 2541, 1728, 1984]

In [None]:
statements = []
for article in dataset:
  statements.append(article["statement"])

statements = np.array(statements)

In [None]:
lucky_statements = statements[np.array(x)]

In [None]:
SUM_API_URL = "https://api-inference.huggingface.co/models/it5/it5-base-news-summarization"
INFORMAL_API_URL = "https://api-inference.huggingface.co/models/it5/it5-base-informal-to-formal"
FORMAL_API_URL = "https://api-inference.huggingface.co/models/it5/it5-small-formal-to-informal"
headers = {"Authorization": "Bearer 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"}

def news_summarization(payload):
	response = requests.post(SUM_API_URL, headers=headers, json=payload)
	return response.json()

def informal_to_formal(payload):
	response = requests.post(INFORMAL_API_URL, headers=headers, json=payload)
	return response.json()

def formal_to_informal(payload):
	response = requests.post(FORMAL_API_URL, headers=headers, json=payload)
	return response.json()

print(news_summarization("test per far caricare la api al sito"))
print(informal_to_formal("test per far caricare la api al sito"))
print(formal_to_informal("test per far caricare la api al sito"))

{'error': 'Model it5/it5-base-news-summarization is currently loading', 'estimated_time': 39.61138916015625}
{'error': 'Model it5/it5-base-informal-to-formal is currently loading', 'estimated_time': 39.611228942871094}
{'error': 'Model it5/it5-small-formal-to-informal is currently loading', 'estimated_time': 20.0}


In [None]:
def bleu(original_text, parafrasi):
  reference = [ original_text.split() ]
  candidate = parafrasi.split()
  return sentence_bleu(reference, candidate, smoothing_function = SmoothingFunction().method1)

# By default the sentence_bleu() function calculates the cumulative 4-gram BLEU score, also called BLEU-4.

def bleu_on_combined_objects(combined_object):
  bleu_scores = [
      sentence_bleu([combined_object["original"].split()], combined_object["news_sum"].split(), smoothing_function = SmoothingFunction().method1),
      sentence_bleu([combined_object["original"].split()], combined_object["informal_to_formal"].split(), smoothing_function = SmoothingFunction().method1),
      sentence_bleu([combined_object["original"].split()], combined_object["formal_to_informal"].split(), smoothing_function = SmoothingFunction().method1)
  ]
  return bleu_scores

In [None]:
def parafrasando(original_statement):
  combined_object = {
      "original" : original_statement,
      "news_sum": news_summarization({"inputs": original_statement})[0]['summary_text'],
      "informal_to_formal": informal_to_formal({"inputs": original_statement})[0]['generated_text'],
      "formal_to_informal": formal_to_informal({"inputs": original_statement})[0]['generated_text']
  }
  return combined_object

In [None]:
# produciamo le parafrasi riempiendo un array con i combined_obj
risultati = []
for statement in lucky_statements:
  risultati.append(parafrasando(statement))

In [None]:
# Let's calculate Bleu scores:
scores = []
for insieme_parafrasi in risultati:
  #print(bleu_on_combined_objects(insieme_parafrasi))
  scores.append(bleu_on_combined_objects(insieme_parafrasi))

In [None]:
# Quale dei tre modelli è più efficace secondo il BLEU score?
models_name = ["news_sum", "informal_to_formal", "formal_to_informal"]
models_points = [0, 0, 0]
for scores_row in scores:
  models_points[np.argmax(np.array(scores_row))] += 1
print("Modello : numero di frasi in cui ha ottenuto il punteggio più alto")
print(models_name[0] + " -> " + str(models_points[0]))
print(models_name[1] + " -> " + str(models_points[1]))
print(models_name[2] + " -> " + str(models_points[2]))

Modello : numero di frasi in cui ha ottenuto il punteggio più alto
news_sum -> 7
informal_to_formal -> 2
formal_to_informal -> 1


In [None]:
with open("/content/gdrive/MyDrive/Jacopo/parafrasi_jacopo_it5_GPT4.json", "w") as F:
    json.dump(risultati, F, indent=2, ensure_ascii=False)

# Osservazioni superficiali:
- i modelli che cambiano stile, se ritengono che lo stile dello statement sia già quello d'arrivo, non hanno effetto
- i modelli che cambiano stile hanno effetti minimi su statement corti
- news summarization aggiunge frasi inventate di sana pianta

# Valutazione manuale su due dimensioni


1.   Deviazione dall'originale, scala 1 a 5 (1 = uguale, 5 = molto diverso)
2.   Preservazione della fattualità, valore binario (0 = senso preservato, 1 = senso alterato)






In [None]:
variance = [
    [2, 4, 5],
    [1, 2, 1],
    [3, 1, 5],
    [2, 1, 1],
    [3, 2, 3],
    [1, 2, 5],
    [5, 4, 4],
    [2, 3, 4],
    [2, 4, 5],
    [1, 3, 4]
]
consistency = [
    [0, 1, 1],
    [0, 1, 0],
    [0, 0, 1],
    [1, 0, 0],
    [1, 1, 1],
    [0, 0, 1],
    [1, 1, 1],
    [0, 0, 1],
    [0, 1, 1],
    [0, 0, 1]
]

In [None]:
data = {'original': [combined_obj["original"] for combined_obj in risultati],
        'news': [combined_obj["news_sum"] for combined_obj in risultati],
        "bleu1" : [round(score[0], 4) for score in scores],
        "var1" : [var[0] for var in variance],
        "con1" : [con[0] for con in consistency],
        'informal_to_formal' : [combined_obj["informal_to_formal"] for combined_obj in risultati],
        "bleu2" : [round(score[1], 4) for score in scores],
        "var2" : [var[1] for var in variance],
        "con2" : [con[1] for con in consistency],
        'formal_to_informal' : [combined_obj["formal_to_informal"] for combined_obj in risultati],
        "bleu3" : [round(score[2], 4) for score in scores],
        "var3" : [var[2] for var in variance],
        "con3" : [con[2] for con in consistency],
        }

df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,original,news,bleu1,var1,con1,informal_to_formal,bleu2,var2,con2,formal_to_informal,bleu3,var3,con3
0,"""[…] Le due principali banche del Paese, Intes...","“[...] le due principali banche del paese, int...",0.3127,2,0,le due principali banche del paese sono intesa...,0.0441,4,1,[...] le due principali banche del paese sono ...,0.0036,5,1
1,"""Abbiamo 300.000 leggi. La burocrazia ha sosti...",“abbiamo 300.000 leggi. la burocrazia ha sosti...,0.1286,1,0,«abbiamo 300.000 leggi». (min. 06:15),0.0192,2,1,"abbiamo 300.000 leggi, la burocrazia ha sostit...",0.2513,1,0
2,"«Un uso moderato di vino garantisce, come la s...","«un consumo moderato di vino garantisce, come ...",0.109,3,0,"«un uso moderato di vino garantisce, come la s...",0.7861,1,0,"bere è un buon vino è un buon affare, come la ...",0.0826,5,1
3,"""L’82-85 per cento delle famiglie italiane viv...",“l’82-85 per cento delle famiglie italiane viv...,0.2189,2,1,l'82-82 per cento delle famiglie italiane vive...,0.8155,1,0,l'82-85 per cento delle famiglie italiane vive...,0.8155,1,0
4,“Prezzi abitazioni: crollano con crisi subprim...,“prezzi case: crollano con crisi subprime 2007...,0.0925,3,1,«prezzi case: crollano con la crisi subprime 2...,0.0331,2,1,le case crollano con crisi subprime 2007-2,0.074,3,1
5,"""L'Unione europea conosce anche uno strumento ...",“l’unione europea conosce anche uno strumento ...,0.7443,1,0,l'unione europea conosce anche uno strumento d...,0.0589,2,0,l'unione europea sa anche che i cittadini euro...,0.0009,5,1
6,"""2012, governo Monti: Pil italiano -2,3%. 2013...","il ministro dell’economia e delle finanze, enr...",0.0346,5,1,"2012, governo monti: pil italiano a -2,3%.",0.0008,4,1,"2012, governo monti: pil italiano: -1,9 guard",0.0007,4,1
7,"""Sei domande a Matteo Renzi. 1. Ci sarà una ra...",sei domande a matteo renzi. “ci sarà una ragio...,0.292,2,0,«ci sarà una ragione se l'italia non ha ancora...,0.2151,3,0,1. ci sarà una ragione se l'italia è l'unico p...,0.0531,4,1
8,"""Abbiamo la Buitoni che se l'è presa la Svizze...",“abbiamo la buitoni che se l’è presa la svizze...,0.0211,2,0,"l'algida è olandese, la gilles è francese, le ...",0.0006,4,1,ummmmmmmmmmmmmmmmm,0.0,5,1
9,"""Il referendum sull'euro, un referendum anche ...","“il referendum sull’euro, un referendum anche ...",0.3283,1,0,"il referendum sull'euro era previsto, perché f...",0.1688,3,0,"referendum sull'euro, anche consultivo, e l'al...",0.0236,4,1


# Scrivo qui sotto le parafrasi ottenute su chatgpt4 (non la api ma il servizio gratuito di chat) tramite 3 prompt:


1.   immagina di essere un giornalista, devi scrivere una frase che sia **equivalente** alla frase che ti viene data, ma formulata in modo diverso, cambiandone lo stile, la grammatica ed alcune parole. Puoi anche aggiungere periodi che si sviluppano in modo indipendente ed imprevisto. rimuovi i minutaggi
2.   immagina di essere un giornalista, devi scrivere una frase **concettualmente simile** alla frase che ti viene data[...]
3.   immagina di essere un giornalista o un copywriter, devi parafrasare le frasi che ti mando in modo che siano significativamente diverse dall'originale e devi anche rimuovere minutaggi + modificala maggiormente, cambia i termini usati, aggiungi o rimuovi parti, l'importante è mantenere almeno due delle parole chiave





In [None]:
# originali = lucky_statements[:5]
prompt1 = [
    "Intesa Sanpaolo e Unicredit, i due istituti bancari di maggior rilievo nel Paese, hanno le loro sedi principali a Torino anziché a Roma o Milano. La Compagnia San Paolo risulta essere il principale azionista di Intesa Sanpaolo, mentre la Fondazione Cassa di Risparmio di Torino detiene la quota di maggioranza pubblica in Unicredit.",
    "Il nostro Paese conta ben 300.000 leggi, e purtroppo sembra che la burocrazia abbia preso il sopravvento a discapito della democrazia. La proliferazione normativa rischia di limitare la partecipazione e la voce dei cittadini nelle decisioni che li riguardano.",
    "Secondo quanto affermato dalla comunità scientifica, un consumo moderato di vino può contribuire al benessere.",
    "L'82-85% delle famiglie italiane risiede nelle abitazioni di loro proprietà.",
    "I prezzi delle abitazioni hanno subito una drastica caduta durante la crisi dei subprime del 2007-2009. Successivamente, sono risaliti durante il governo di Berlusconi nel 2010-2011, ma hanno poi registrato un altro calo durante le amministrazioni di Monti e Letta nel 2012-2013.",
]
prompt2 = [
    "Intesa Sanpaolo e Unicredit, i colossi bancari di spicco nel panorama nazionale, hanno le proprie radici saldamente piantate a Torino. Mentre la Capitale e la Città della Moda possono vantare un'infinita lista di meriti, queste due banche rinomate hanno scelto la loro dimora nel cuore del Piemonte. Alla guida di Intesa Sanpaolo si trova la Compagnia San Paolo, il suo principale azionista, mentre la Fondazione Cassa di Risparmio di Torino detiene la corona di azionista pubblico di Unicredit. Questi notevoli attori finanziari sfidano le convenzioni, dimostrando che il potere e l'influenza possono risiedere in luoghi inaspettati.",
    "Il nostro sistema giuridico si trova ad affrontare l'onere di ben 300.000 leggi, un numero che riflette la complessità e l'entità della normativa vigente. Tuttavia, è innegabile che tale abbondanza normativa possa a volte soffocare il principio democratico, poiché sembra che la burocrazia si sia fatta strada come protagonista principale. Questo spinge a riflettere sull'equilibrio tra la volontà popolare e l'interferenza della macchina amministrativa, rendendo necessaria una riconsiderazione delle strutture burocratiche al fine di ristabilire un'autentica democrazia.",
    "Secondo le affermazioni scientifiche, un consumo moderato di vino può contribuire al benessere.",
    "La stragrande maggioranza, circa l'82-85 percento, delle famiglie italiane gode del privilegio di abitare nella propria casa di proprietà.",
    "I prezzi delle abitazioni hanno subito un drastico crollo durante la crisi dei subprime tra il 2007 e il 2009. Tuttavia, durante il governo Berlusconi nel 2010-2011, si è verificata una ripresa e un aumento dei prezzi immobiliari. Successivamente, con i governi di Monti e Letta nel 2012-2013, si è assistito a un nuovo calo dei prezzi delle abitazioni."
]
prompt3 = [
    "Intesa Sanpaolo e Unicredit, le due principali istituzioni bancarie del Paese, hanno le loro sedi principali a Torino, non a Roma né a Milano. Compagnia San Paolo detiene la quota di maggioranza in Intesa Sanpaolo, mentre la Fondazione Cassa di Risparmio di Torino è il principale azionista pubblico di Unicredit. Queste due importanti banche italiane trovano il loro fulcro nel cuore finanziario di Torino.",
    "Il nostro sistema giuridico si trova ad affrontare l'onere di ben 300.000 leggi, un numero che riflette la complessità e l'entità della normativa vigente. Tuttavia, è innegabile che tale abbondanza normativa possa a volte soffocare il principio democratico, poiché sembra che la burocrazia si sia fatta strada come protagonista principale. Questo spinge a riflettere sull'equilibrio tra la volontà popolare e l'interferenza della macchina amministrativa, rendendo necessaria una riconsiderazione delle strutture burocratiche al fine di ristabilire un'autentica democrazia.",
    "Secondo la comunità scientifica, un consumo moderato di vino può contribuire al benessere.",
    "La stragrande maggioranza delle famiglie italiane, tra l'82 e l'85 percento, possiede la propria abitazione.",
    "Durante la crisi dei subprime del 2007-2009, i prezzi delle abitazioni subirono un crollo significativo. Successivamente, nel periodo compreso tra il 2010 e il 2011, durante il governo di Berlusconi, i prezzi delle abitazioni ripresero slancio. Tuttavia, con l'avvento dei governi di Monti e Letta nel 2012-2013, i prezzi delle abitazioni subirono nuovamente un calo."
]
gpt_variance = [
    [4, 5, 3],
    [4, 5, 5],
    [3, 2, 3],
    [1, 3, 2],
    [4, 4, 4]
]
gpt_consistency = [
    [0, 0, 0],
    [0, 1, 1],
    [0, 0, 0],
    [0, 0, 0],
    [0, 0, 0]
]
gpt_bleu = [
    [bleu(lucky_statements[0], prompt1[0]), bleu(lucky_statements[0], prompt2[0]), bleu(lucky_statements[0], prompt3[0])],
    [bleu(lucky_statements[1], prompt1[1]), bleu(lucky_statements[1], prompt2[1]), bleu(lucky_statements[1], prompt3[1])],
    [bleu(lucky_statements[2], prompt1[2]), bleu(lucky_statements[2], prompt2[2]), bleu(lucky_statements[2], prompt3[2])],
    [bleu(lucky_statements[3], prompt1[3]), bleu(lucky_statements[3], prompt2[3]), bleu(lucky_statements[3], prompt3[3])],
    [bleu(lucky_statements[4], prompt1[4]), bleu(lucky_statements[4], prompt2[4]), bleu(lucky_statements[4], prompt3[4])],
]

In [None]:
gpt_data = {'original': lucky_statements[:5],
        'p1': prompt1,
        "bleu1" : [round(score[0], 4) for score in gpt_bleu],
        "var1" : [var[0] for var in gpt_variance],
        "con1" : [con[0] for con in gpt_consistency],
        'p2' : prompt2,
        "bleu2" : [round(score[1], 4) for score in gpt_bleu],
        "var2" : [var[1] for var in gpt_variance],
        "con2" : [con[1] for con in gpt_consistency],
        'p3' : prompt3,
        "bleu3" : [round(score[2], 4) for score in gpt_bleu],
        "var3" : [var[2] for var in gpt_variance],
        "con3" : [con[2] for con in gpt_consistency],
        }

gpt_df = pd.DataFrame(gpt_data)

In [None]:
gpt_df

Unnamed: 0,original,p1,bleu1,var1,con1,p2,bleu2,var2,con2,p3,bleu3,var3,con3
0,"""[…] Le due principali banche del Paese, Intes...","Intesa Sanpaolo e Unicredit, i due istituti ba...",0.2176,4,0,"Intesa Sanpaolo e Unicredit, i colossi bancari...",0.1164,5,0,"Intesa Sanpaolo e Unicredit, le due principali...",0.2145,3,0
1,"""Abbiamo 300.000 leggi. La burocrazia ha sosti...","Il nostro Paese conta ben 300.000 leggi, e pur...",0.0067,4,0,Il nostro sistema giuridico si trova ad affron...,0.0031,5,1,Il nostro sistema giuridico si trova ad affron...,0.0031,5,1
2,"«Un uso moderato di vino garantisce, come la s...",Secondo quanto affermato dalla comunità scient...,0.0654,3,0,"Secondo le affermazioni scientifiche, un consu...",0.0769,2,0,"Secondo la comunità scientifica, un consumo mo...",0.0826,3,0
3,"""L’82-85 per cento delle famiglie italiane viv...",L'82-85% delle famiglie italiane risiede nelle...,0.0972,1,0,"La stragrande maggioranza, circa l'82-85 perce...",0.0881,3,0,La stragrande maggioranza delle famiglie itali...,0.028,2,0
4,“Prezzi abitazioni: crollano con crisi subprim...,I prezzi delle abitazioni hanno subito una dra...,0.0269,4,0,I prezzi delle abitazioni hanno subito un dras...,0.0196,4,0,"Durante la crisi dei subprime del 2007-2009, i...",0.0203,4,0
