In [None]:
from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch

raw_model = 'aiknowyou/mt5-base-it-paraphraser'

# Model and Tokenizer definition #
model = T5ForConditionalGeneration.from_pretrained(raw_model)
tokenizer = T5Tokenizer.from_pretrained(raw_model)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
max_size = 10000

def paraphrase(text, beams=100, grams=10, num_return_sequences=5):
    x = tokenizer(text, return_tensors='pt', padding=True).to(model.device)
    max_size = int(x.input_ids.shape[1] * 1.5 + 10)
    out = model.generate(**x, encoder_no_repeat_ngram_size=grams, num_beams=beams, num_return_sequences=num_return_sequences, max_length=max_size)
    return tokenizer.batch_decode(out, skip_special_tokens=True)
  
sentence = "Due amici si incontrano al bar per discutere del modo migliore di generare parafrasi."
print(paraphrase(sentence))

Downloading:   0%|          | 0.00/977M [00:00<?, ?B/s]

In [None]:
paraphrase(sentence, num_return_sequences=50)

['Due amici stanno discutendo del modo migliore per generare parafrasi.',
 'Due amici si incontrano a un bar per discutere del modo migliore per generare parafrasi.',
 'Due amici si incontrano al bar per parlare del modo migliore per generare parafrasi.',
 'Due amici sono seduti al bar per discutere del modo migliore per generare parafrasi.',
 'Due amici si incontrano in un bar per discutere del modo migliore per generare parafrasi.',
 'Due amici si incontrano al bar di un bar per discutere del modo migliore per generare parafrasi.',
 'Due amici si incontrano per discutere del modo migliore per generare parafrasi.',
 'Due amici stanno discutendo il modo migliore per generare parafrasi.',
 'Un gruppo di amici si incontra al bar per discutere del modo migliore per generare parafrasi.',
 'Un uomo e una donna stanno discutendo del modo migliore per generare parafrasi.',
 'Due amici si incontrano al bar e discutono del modo migliore per generare parafrasi.',
 'Un gruppo di persone si incont

In [None]:
paraphrase(sentence, beams=50, grams=5, num_return_sequences=50)

['Due amici stanno discutendo del modo migliore per generare Parafrasi.',
 'Un uomo e una donna stanno discutendo del modo migliore per generare Parafrasi.',
 'Due amici stanno discutendo il modo migliore per generare Parafrasi.',
 'Un uomo e una donna stanno discutendo il modo migliore per generare Parafrasi.',
 'Due amici stanno discutendo di un modo migliore per generare Parafrasi.',
 'Un uomo e una donna si incontrano a un bar per discutere il modo migliore per generare Parafrasi.',
 'Un uomo e una donna si incontrano a un bar per discutere dei modi migliori per generare Parafrasi.',
 'Due amici stanno discutendo dei modi migliori per generare Parafrasi.',
 'Due uomini stanno discutendo del modo migliore per generare Parafrasi.',
 'Un uomo e un ragazzo stanno discutendo del modo migliore per generare Parafrasi.',
 'Un uomo e una donna stanno discutendo di un modo migliore per generare Parafrasi.',
 'Due amici stanno discutendo sul modo migliore per generare Parafrasi.',
 'Un uomo e

In [3]:
import pandas as pd
df = pd.read_csv("unbalanced_train.csv", sep=",")
df.describe()

Unnamed: 0,Domanda,Testo,Stralcio,Repertorio
count,3,9205,20981,20981
unique,1,9182,20930,23
top,A cosa serve questo testo per il perseguimento...,Scusate una domanda perché forse non ci arrivo...,"Covid,",sancire
freq,3,2,4,3360


In [12]:
n = 1000
gb = df.groupby('Repertorio')

new_samples = dict()

for x in gb.groups:
    print(x)
    class_df = gb.get_group(x)
    need_to_generate = n - len(class_df)
    print(f"Need to generate: {need_to_generate}")
    new_samples[x] = []
    if need_to_generate <= 0:
        pass

    else:
        new_per_example = round(need_to_generate / len(class_df))
        print(f"New examples per sample to generate: {new_per_example}")
        min_rounds = new_per_example * len(class_df)
        full_rounds = need_to_generate - min_rounds
        full_count = 0
        for stralcio in class_df.Stralcio:
            if full_count < full_rounds:
                new_example = paraphrase(stralcio, beams=50, grams=15, num_return_sequences=(new_per_example + 1))
                full_count += 1
                new_samples[x].extend(new_example)
            elif new_per_example != 0:
                new_example = paraphrase(stralcio, beams=50, grams=15, num_return_sequences=(new_per_example))
                new_samples[x].extend(new_example)
            else:
                pass
            



anticipazione
Need to generate: 968
New examples per sample to generate: 30
causa
Need to generate: 716
New examples per sample to generate: 3
commento
Need to generate: -1618
conferma
Need to generate: 619
New examples per sample to generate: 2
considerazione
Need to generate: 812
New examples per sample to generate: 4
contrapposizione
Need to generate: 154
New examples per sample to generate: 0
deresponsabilizzazione
Need to generate: 620
New examples per sample to generate: 2
descrizione
Need to generate: -1919
dichiarazione di intenti
Need to generate: 617
New examples per sample to generate: 2
generalizzazione
Need to generate: 368
New examples per sample to generate: 1
giudizio
Need to generate: -655
giustificazione
Need to generate: 738
New examples per sample to generate: 3
implicazione
Need to generate: 577
New examples per sample to generate: 1
non risposta
Need to generate: 304
New examples per sample to generate: 0
opinione
Need to generate: 199
New examples per sample to g

In [13]:
new_samples

{'anticipazione': ["C'è un orizzonte di breve periodo, queste settimane, i prossimi mesi, nel quale l'imperativo categorico è rappresentato dalla ripartenza.",
  "C'è un orizzonte di breve periodo nel quale l'imperativo categorico è rappresentato dalla ripartenza.",
  "Questo è un orizzonte di breve periodo, queste settimane, i prossimi mesi, nel quale l'imperativo categorico è rappresentato dalla ripartenza.",
  "C'è un orizzonte di breve periodo (questa settimana, i prossimi mesi) nel quale l'imperativo categorico è rappresentato dalla ripartenza.",
  "Questo è un orizzonte di breve periodo nel quale l'imperativo categorico è rappresentato dalla ripartenza.",
  'C\'è un orizzonte di breve periodo, queste settimane, i prossimi mesi, nel quale l\'imperativo categorico è rappresentato dalla "ripartenza".',
  "C'è un orizzonte di breve periodo, queste settimane, i prossimi mesi, in cui l'imperativo categorico è rappresentato dalla ripartenza.",
  "C'è anche un orizzonte di breve periodo,

In [None]:
df.Repertorio.value_counts()

sancire                     3360
descrizione                 2919
commento                    2618
giudizio                    1655
valutazione                 1274
prescrizione                1148
contrapposizione             846
specificazione               835
opinione                     801
non risposta                 696
previsione                   696
ridimensionamento            644
generalizzazione             632
implicazione                 423
dichiarazione di intenti     383
conferma                     381
deresponsabilizzazione       380
possibilità                  370
causa                        284
giustificazione              262
considerazione               188
proposta                     154
anticipazione                 32
Name: Repertorio, dtype: int64

In [7]:
df[df.Repertorio == "anticipazione"].Stralcio[0]

'C’è, innanzitutto, un orizzonte di breve periodo (queste settimane, i prossimi mesi) nel quale l’imperativo categorico è rappresentato dalla «ripartenza»'

In [None]:
#sentence = df[df.Repertorio == "anticipazione"].Stralcio[1]
sentence = 'Sulla Mostra del cinema probabilmente non ci saranno tutte le produzioni che siamo abituati a vedere perché si sono fermate le lavorazioni ed anteprime dei film".'

In [None]:
paraphrase(sentence, beams=50, grams=5, num_return_sequences=5)

['Non ci saranno le produzioni che si abituano a vedere a causa delle lavorazioni ed Anteprime dei film perché si sono fermi le lavorazioni e Anteprime dei film a causa delle lavorazioni e dei film a causa delle lavorazioni e dei film a causa delle lavora',
 'Non ci saranno le produzioni che si abituano a vedere a causa delle lavorazioni ed Anteprime dei film perché si sono fermi le lavorazioni e Anteprime dei film a causa delle lavorazioni e dei film a causa delle lavorazioni e dei film a causa delle',
 'Non ci saranno le produzioni che si abituano a vedere a causa delle lavorazioni ed Anteprime dei film perché si sono fermi le lavorazioni e Anteprime dei film a causa delle lavorazioni e dei film a causa delle lavorazioni e dei film a causa della crisi',
 'Non ci saranno le produzioni che si abituano a vedere a causa delle lavorazioni ed Anteprime dei film perché si sono fermi le lavorazioni e Anteprime dei film a causa delle lavorazioni e dei film a causa delle lavorazioni e dei film