#**Italian Dialects: NLP For Local Linguistics**

The idea behind this project is the task proposed by GeoLingIt Shared Task and published on Avalita, in which, given a dataset containing tweets written in Italian dialect associated with the region of origin of the dialect, you had to predict the region of origin of a dialect text never seen. This project extends the task with an extra phase: the translation of the dialect text in italian.

In [None]:
#installation of the necessary libraries
!pip install cleantext
!pip install spacy
!pip install keras
!pip install nltk
!pip install -U spaCy
!python -m spacy download it_core_news_sm
!pip install tensorflow

Collecting cleantext
  Downloading cleantext-1.1.4-py3-none-any.whl (4.9 kB)
Installing collected packages: cleantext
Successfully installed cleantext-1.1.4
Collecting it-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-3.7.0/it_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m39.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: it-core-news-sm
Successfully installed it-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('it_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


## *Analysis of the dataset*

The starting dataset consists of two parts: dev and train. Analyzing the number of sentences associated with each Italian region, we noticed a remarkable imbalance and a small number of examples. As a result the two files were merged and a over-sampling phase was planned (detailed view later).
Analyzing the sentences, we saw that they needed a preprocessing phase to normalize everything and leave only the text we needed.

In [None]:
#Import of the necessary libraries
import pandas as pd
import spacy
import re
from tqdm import tqdm
from cleantext import clean
import numpy as np
from random import randint

In [None]:
#Loading of the train dataset
df = None
with open('TRAIN_NLP_DIALECT.csv', 'r', encoding='latin-1') as f:
    for i,line in enumerate(f.readlines()):
        if i == 0:
          columns = line.strip().split(';')
          columns = columns[1:]
          df = pd.DataFrame(columns=columns)
        else:
          line = line.lower()
          row = line.strip().split(';')[1:]
          if len(row) > len(columns):
            target = row.pop(-1)
            val = ''
            for i, el in enumerate(row):
              val += el
              if i < len(row)-1:
                val += ';'
            row = [val]
            row.append(target)
          df.loc[i] = row

In [None]:
#Loading of the dev dataset
dev = None
with open('FinalTest.csv', 'r', encoding='latin-1') as f:
    for i,line in enumerate(f.readlines()):
        if i == 0:
          columns = line.strip().split(',')
          columns = columns[2:]
          dev = pd.DataFrame(columns=columns)
        else:
          line = line.lower()
          row = line.strip().split(',')[2:]
          if len(row) > len(columns):
            target = row.pop(-1)
            val = ''
            for i, el in enumerate(row):
              val += el
              if i < len(row)-1:
                val += ','
            row = [val]
            row.append(target)
            dev.loc[len(dev)] = row

In [None]:
print(dev)

                                                  text     region
0     mortacci, na roba che nse po' vede, por, na c...      lazio
1     ou belin, ma mi avevano detto che non finiva ...    liguria
2     ora che sta a casa da due anni, a capit ca ni...   campania
3     e er boja stava all'ordine der giorno. adesso...      lazio
4     quando e uscito 50 sfumature di grigio, tutte...   calabria
..                                                 ...        ...
183   distratto. no. ieri no gho vu tempo e anco so...     veneto
184   belin coerenza, sono riusciti in 2anni ad ann...    liguria
185   incredibilmente, alla lunga, ne sono usciti b...  lombardia
186   che domenica e senza : so maista' u cannolu s...    sicilia
187   quando decideva di giocarla sul serio, ce n'e...     puglia

[188 rows x 2 columns]


In [None]:
df['region'].value_counts()

region
lazio                    5587
campania                 3016
veneto                    764
lombardia                 688
sicilia                   612
toscana                   418
sardegna                  359
emilia romagna            319
calabria                  281
puglia                    264
piemonte                  236
liguria                   223
friuli-venezia giulia     218
marche                    179
abruzzo                   150
umbria                    136
trentino-alto adige        52
basilicata                 49
molise                     35
valle d'aosta              14
Name: count, dtype: int64

In [None]:
dev['region'].value_counts()

region
campania                 30
lazio                    27
lombardia                21
emilia romagna           17
toscana                  16
veneto                   15
sicilia                  11
liguria                   9
friuli-venezia giulia     9
puglia                    9
calabria                  8
sardegna                  8
piemonte                  8
Name: count, dtype: int64

In [None]:
df['region'] = df['region'].str.lower()
dev['region'] = dev['region'].str.lower()

Here we can see the unbalance of the dataset and the presence of Minonitary classes.

## **Pre processing**

The initial datasets were in tsv format to allow different users to work with different libraries on them. Since pandas was used in this project, the dataset was converted to csv format and this led to the automatic addition of the column 'Unnamed: 0' that, in this preprocessing sentence, we will remove.

In [None]:
ds = df.drop(['Unnamed: 0'],axis = 1)
dev = dev.drop(['Unnamed: 0'], axis = 1)

Now the actual preprocessing phase begins. Then let’s remove from the phrases: Twitter tags (current X), emoticons and hashtags.

In [None]:
#Definition of the text cleaning function
def clean_the_text(text: str):
  pattern = r'\[.*?\]|\#\w+'
  cleaned_text = re.sub(pattern, '', text)
  cleaned_text = clean(cleaned_text, no_emoji=True)
  return cleaned_text

We apply the function to the two datasets:

In [None]:
#Pre-processing of the train dataset
ids = ds['id'].to_numpy()
new_text = []

for id in tqdm(ids):
  clean_text = clean_the_text(ds[ds['id']==id]['text'].values[0])
  new_text.append(clean_text)

ds['text'] = new_text
ds

In [None]:
#Pre-processing of the dev dataset
ids = dev['id'].to_numpy()
new_text = []

for id in tqdm(ids):
  clean_text = clean_the_text(dev[dev['id']==id]['text'].values[0])
  new_text.append(clean_text)

dev['text'] = new_text
dev

Then we proceed with the union of the two datasets, also to have a greater number of total examples.



In [None]:
ds = pd.concat([df,dev], ignore_index=True)

In [None]:
ds['region'].value_counts()

region
lazio                    5614
campania                 3046
veneto                    779
lombardia                 709
sicilia                   623
toscana                   434
sardegna                  367
emilia romagna            336
calabria                  289
puglia                    273
piemonte                  244
liguria                   232
friuli-venezia giulia     227
marche                    179
abruzzo                   150
umbria                    136
trentino-alto adige        52
basilicata                 49
molise                     35
valle d'aosta              14
Name: count, dtype: int64

In [None]:
ds.to_csv('NLP_Dataset.csv')

In [None]:
df

Unnamed: 0,text,region
0,Sò dispiacente ca nun m'ha datu tempu de prepa...,marche
1,"Tornarò a Ascoli a festa de Pasca,.",marche
2,"A me m'ha detto ca t'aspettava a jesi,.",marche
3,"La gùrdia a stava a guardà,.",marche
4,"Porca muntagna si iva a cadè,.",marche
...,...,...
14720,distratto. no. ieri no gho vu tempo e anco so...,veneto
14721,"belin coerenza, sono riusciti in 2anni ad ann...",liguria
14722,"incredibilmente, alla lunga, ne sono usciti b...",lombardia
14723,che domenica e senza : so maista' u cannolu s...,sicilia


The dataset we will work on will be as follows:

In [None]:
df = pd.read_csv("NLP_Dataset.csv")

It has 14725 examples, but the Minonitary classes always remain.

# Over-sampling: selection of the suitable model
To make over sampling we need a model that allow us to generate sentences in italian dialect. So, in this section, different models were tried.

The quality of generative models has been evaluated based on how they generated sentences in Apulian dialect, which presents a regular number of examples on which the model can be based to generate others.
Moreover, the Apulian dialect was chosen because we can have a direct evaluation of what was generated.
If a model generates a good result for the Apulian dialect, then it will also be used for the dialects of other regions.

## 1. N-GRAM Model
The first model tested is the N-GRAM model. A language model is a probabilistic model that is used to assign a probability to a sequence of words. For example, if we have a group of words and we take the first word, the model can predict the next word, which is the one with the greatest probability of standing next to the first.

In [None]:
#Import of the necessary libraries
import nltk
nltk.download("all")

from nltk import word_tokenize
from nltk.lm import MLE
from nltk.lm.preprocessing import padded_everygram_pipeline
from nltk.tokenize.treebank import TreebankWordDetokenizer

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_rus to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |  

In [None]:
#selection of examples from the region of Puglia
puglia = df[df['region']=='puglia']['text']

Before applying the model, we must apply the tokenization technique on the dataset examples, that is, divide the phrases into tokens, into pieces.
To do this, we use the nltk tokenizer that will output the tokenized text

In [None]:
sents = []
for i in puglia:
  s = nltk.sent_tokenize(i)
  sents.append(s)

tokenized_text = [list(map(str.lower, word_tokenize(str(sent))))
                  for sent in sents]

Now we can apply the model which, in our case will be a 3-gram model, that is, to calculate the probability of the next word, will consider the above three.

In [None]:
n = 3
training_ngrams, padded_sents = padded_everygram_pipeline(n, tokenized_text)
#using a model based on Maximum Likelihood Estimation
model = MLE(n)
model.fit(training_ngrams, padded_sents)

#object we need to take the Tokenized phrase and convert it into a single sentence.
detokenize = TreebankWordDetokenizer().detokenize

#function for generation of sentences
def generate_sent(model, num_words, random_seed):
    content = []
    for token in model.generate(num_words, random_seed=random_seed):
        if token == '<s>':
            continue
        if token == '</s>':
            break
        content.append(token)
    return detokenize(content)

print (generate_sent(model, 15, random_seed=6))
print (generate_sent(model, 15, random_seed=2))

nan u send canta no pa tutt'appost solo che stavo in fase depressione da campovolo
tieni a mente, lu mare c' e mho a ci non fatica doi


The 3-gram model seems to generate valid examples, but, after careful analysis, it has been seen that in reality, the tokenization phase has not been done well. The tokenizer used a basic English dictionary, therefore it does not see every token as a word, but the tokens turn out to be whole sentences. As a result, the same model was tested with a Spacy tokenizer based on an Italian dictionary.

In [None]:
#Import of the necessary libraries
from spacy.lang.it import Italian
import spacy
from nltk.lm.preprocessing import padded_everygram_pipeline
from nltk.tokenize.treebank import TreebankWordDetokenizer

import string

nlp_it = spacy.load("it_core_news_sm")
punctuations = string.punctuation
stop_words_it = spacy.lang.it.stop_words.STOP_WORDS
parser_it = Italian()

In [None]:
# Tokenizer function
def spacy_tokenizer_it(sentence):
    mytokens = parser_it(sentence)
    mytokens = [ word.text for word in mytokens ]
    #removing stop words
    mytokens = [ word for word in mytokens if word not in stop_words_it and word not in punctuations]
    return mytokens

In [None]:
puglia = df[df['region']=='puglia']['text']

In [None]:
sents = []
for i in puglia:
  s = spacy_tokenizer_it(i)
  sents.append(s)

tokenized_text = [list(map(str.lower, word_tokenize(str(sent))))
                  for sent in sents]

In [None]:
n = 3
training_ngrams, padded_sents = padded_everygram_pipeline(n, tokenized_text)
model = MLE(n)
model.fit(training_ngrams, padded_sents)

detokenize = TreebankWordDetokenizer().detokenize

def generate_sent(model, num_words, random_seed):
    content = []
    for token in model.generate(num_words, random_seed=random_seed):
        if token == '<s>':
            continue
        if token == '</s>':
            break
        content.append(token)
    return detokenize(content)

print (generate_sent(model, 50, random_seed=50))
print (generate_sent(model, 15, random_seed=2))

From here we can see that the tokenizer works very well, but the model is not for us because it simply creates a sequence of words and not meaningful sentences.

## 2. Neural networks with Keras

Let’s try more complex models based on neural networks made with keras.

### LSTM
A **Long Short-Term Memory (LSTM)** is a type of recurring neural network (RNN) designed to model long-term data sequences. It is particularly useful for natural language processing (NLP) applications such as text generation. LSTM overcomes the fading gradient problem of traditional RNN due to its special architecture that includes memory cells and port mechanisms (input, output and forget) that control the flow of information.



In [None]:
puglia = df[df['region']=='puglia']['text']

In [None]:
#library import
from keras.preprocessing.sequence import pad_sequences
from keras.layers import Embedding, LSTM, Dense, Dropout
from keras.src.models import Sequential
from keras.preprocessing.text import Tokenizer
import keras.src.utils as ku

import warnings
warnings.filterwarnings("ignore")

In [None]:
from spacy.lang.it import Italian
import string

nlp_it = spacy.load("it_core_news_sm")
punctuations = string.punctuation
stop_words_it = spacy.lang.it.stop_words.STOP_WORDS
parser_it = Italian()

In [None]:
# Tokenizer function
def spacy_tokenizer_it(sentence):
    mytokens = parser_it(sentence)
    mytokens = [ word.text for word in mytokens ]
    # remove stop words
    mytokens = [ word for word in mytokens if word not in stop_words_it and word not in punctuations ]
    # return preprocessed list of tokens
    return mytokens

Neural network-based models need to represent data as token sequences. Accordingly, we define a function to define them.

In [None]:
def get_sequence_of_tokens(corpus):
    word_index = {}
    index = 1
    input_sequences = []

    for line in corpus:
        token_list = spacy_tokenizer_it(line)
        token_indices = []
        for token in token_list:
            if token not in word_index:
                word_index[token] = index
                index += 1
            token_indices.append(word_index[token])

        for i in range(1, len(token_indices)):
            n_gram_sequence = token_indices[:i+1]
            input_sequences.append(n_gram_sequence)

    total_words = len(word_index) + 1
    return input_sequences, total_words

inp_sequences, total_words = get_sequence_of_tokens(puglia)
print("Sequence: ",inp_sequences[:10])
print("Total words: ",total_words)

Sequence:  [[1, 2], [1, 2, 3], [1, 2, 3, 4], [1, 2, 3, 4, 5], [1, 2, 3, 4, 5, 6], [1, 2, 3, 4, 5, 6, 7], [1, 2, 3, 4, 5, 6, 7, 8], [1, 2, 3, 4, 5, 6, 7, 8, 9], [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]]
Total words:  1792


However, token sequences can be of variable length, so we define a function to add padding to each sequence to make them the same length.

In [None]:
def generate_padded_sequences(input_sequences):
    max_sequence_len = max([len(x) for x in input_sequences])
    input_sequences = np.array(pad_sequences(input_sequences, maxlen=max_sequence_len, padding='pre'))

    predictors, label = input_sequences[:,:-1],input_sequences[:,-1]
    label = ku.to_categorical(label, num_classes=total_words)
    return predictors, label, max_sequence_len

predictors, label, max_sequence_len = generate_padded_sequences(inp_sequences)
print("Predictors shape:", predictors.shape)
print("Label shape:", label.shape)
print("Max sequence length:", max_sequence_len)

Predictors shape: (2635, 35)
Label shape: (2635, 1792)
Max sequence length: 36


In [None]:
def create_model(max_sequence_len, total_words):
    input_len = max_sequence_len - 1
    model = Sequential()

    #add Input Embedding Layer, for internal representation of sequences
    model.add(Embedding(total_words, 20, input_length=input_len))

    #add Hidden LSTM Layer
    model.add(LSTM(200))
    model.add(Dropout(0.2))

    # Add Output Layer
    model.add(Dense(total_words, activation='softmax'))

    model.compile(loss='categorical_crossentropy', optimizer='adam')

    return model

model = create_model(max_sequence_len, total_words)
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 35, 20)            35840     
                                                                 
 lstm (LSTM)                 (None, 200)               176800    
                                                                 
 dropout (Dropout)           (None, 200)               0         
                                                                 
 dense (Dense)               (None, 1792)              360192    
                                                                 
Total params: 572832 (2.19 MB)
Trainable params: 572832 (2.19 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [None]:
model.fit(predictors, label, epochs = 3, verbose=1)

In [None]:
tokenizer = Tokenizer()

def generate_text(seed_text, next_words, model, max_sequence_len):
    for _ in range(next_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
        predicted = model.predict(token_list, verbose=0)
        predicted = np.argmax(predicted, axis=-1)

        output_word = ""
        for word, index in tokenizer.word_index.items():
            if index == predicted:
                output_word = word
                break
        seed_text += " " + output_word
    return seed_text.title()

In [None]:
seed_text = "Lu"
next_words = 5
generated_text = generate_text(seed_text, next_words, model, max_sequence_len)
print(generated_text)

Lu     


This model does not work for our goal.

## VAE
Now create a VAE network for text generation from scratch.
A **Variational Autoencoder (VAE)** is a type of neural network used to learn latent representations of data, useful for NLP text generation and modeling. The VAE combines autoencoder techniques with probabilistic generative models, allowing new data samples similar to training ones to be generated. Their structure consists of an encoder that maps the input data into a probabilistic latent space and a decoder that reconstructs the original data from the points in the latent space.

The first steps are tokenization, creating token sequences, and adding padding to make them the same length.



In [None]:
from spacy.lang.it import Italian
import spacy
from nltk.lm.preprocessing import padded_everygram_pipeline
from nltk.tokenize.treebank import TreebankWordDetokenizer

import string

nlp_it = spacy.load("it_core_news_sm")
punctuations = string.punctuation
stop_words_it = spacy.lang.it.stop_words.STOP_WORDS
parser_it = Italian()

In [None]:
# Tokenizer function
def spacy_tokenizer_it(sentence):
    mytokens = parser_it(sentence)
    mytokens = [ word.text for word in mytokens ]
    # remove stop words
    mytokens = [ word for word in mytokens if word not in stop_words_it and word not in punctuations ]
    # return preprocessed list of tokens
    return mytokens

In [None]:
puglia = df[df['region']=='puglia']['text']

In [None]:
puglia

34        una grandissima artista barese ci lascia. add...
52        raffaele, mi sembra che sto'parlando con mio ...
59                                   bbeddhi comu lu sule 
122         versione barese. la nonn gastema ! scritto da 
325       la reazione di mio padre, da incorniciare, co...
                               ...                        
34208    A maje a diri ca a so' a bona persona, ma a ma...
34209    Mare e sole d'estate s'arriprende, a se'mpiede...
34210    A maje a diri ca a so' a persona onesta, ma a ...
34211    A se' a dispiaccie pe' chidd'ha pecato, a se' ...
34212    Cosa faje a sera quand'è freddo e nu viento 'n...
Name: text, Length: 1429, dtype: object

In [None]:
def get_sequence_of_tokens(corpus):
    word_index = {}
    index = 1
    input_sequences = []

    for line in corpus:
        token_list = spacy_tokenizer_it(line)
        token_indices = []
        for token in token_list:
            if token not in word_index:
                word_index[token] = index
                index += 1
            token_indices.append(word_index[token])

        for i in range(1, len(token_indices)):
            n_gram_sequence = token_indices[:i+1]
            input_sequences.append(n_gram_sequence)

    total_words = len(word_index) + 1
    return input_sequences, total_words,word_index

inp_sequences, total_words,word_index = get_sequence_of_tokens(puglia)
print("Sequence: ",inp_sequences[:10])
print("Total words: ",total_words)
print("Word index: ",word_index)

In [None]:
def generate_padded_sequences(input_sequences):
    max_sequence_len = max([len(x) for x in input_sequences])
    input_sequences = np.array(pad_sequences(input_sequences, maxlen=max_sequence_len, padding='pre'))

    predictors, label = input_sequences[:,:-1],input_sequences[:,-1]
    label = ku.to_categorical(label, num_classes=total_words)
    return predictors, label, max_sequence_len

predictors, label, max_sequence_len = generate_padded_sequences(inp_sequences)
print("Predictors shape:", predictors.shape)
print("Label shape:", label.shape)
print("Max sequence length:", max_sequence_len)

Now we define the 3 parts of the VAE model:

* Encoder: first part of the model that serves to create the internal representation of each sequence that arrives. Each input will be transformed into two vectors representing it: mean vector and variance vector.
* Sampling: creation of internal input representation
* Decoder: for generating new text,dependent on the encoder’s ouput.

In [None]:
from tensorflow.keras.layers import Input, Embedding, LSTM, Dense, Lambda, RepeatVector, TimeDistributed
from tensorflow.keras.models import Model
from tensorflow.keras.losses import sparse_categorical_crossentropy
from tensorflow.keras import backend as K
import numpy as np

In [None]:
input_dim = total_words  #vocabulary size
embedding_dim = 128      #embedding size
latent_dim = 64          #latent vector size
max_sequence_len = predictors.shape[1]  #maximum length of the sequences

*Definition of the encoder:*

In [None]:
def encoder(max_sequence_len,input_dim, embedding_dim,latent_dim):
  inputs = Input(shape=(max_sequence_len,))
  # Embedding Layer
  x = Embedding(input_dim, embedding_dim, input_length=max_sequence_len)(inputs)
  # LSTM Layer
  x = LSTM(128, return_sequences=False)(x)
  # Parameters of the latent distribution
  z_mean = Dense(latent_dim)(x)
  z_log_var = Dense(latent_dim)(x)

  return z_mean, z_log_var,inputs

z_mean, z_log_var,inputs = encoder(max_sequence_len,input_dim, embedding_dim,latent_dim)

*Definition of the sampling:*

In [None]:
def sampling(args):
    z_mean, z_log_var = args
    batch = K.shape(z_mean)[0]
    dim = K.int_shape(z_mean)[1]
    epsilon = K.random_normal(shape=(batch, dim))
    return z_mean + K.exp(0.5 * z_log_var) * epsilon

In [None]:
latent_vector = Lambda(sampling, output_shape=(latent_dim,))([z_mean, z_log_var])



*Definition of the decoder:*

In [None]:
def decoder(latent_vector,max_sequence_len):
  decoder_h = Dense(128, activation='relu')
  h_decoded = decoder_h(latent_vector)
  x_decoded_mean = RepeatVector(max_sequence_len)(h_decoded)
  x_decoded_mean = LSTM(128, return_sequences=True)(x_decoded_mean)
  x_decoded_mean = TimeDistributed(Dense(input_dim, activation='softmax'))(x_decoded_mean)

  return x_decoded_mean

x_decoded_mean =  decoder(latent_vector,max_sequence_len)

Definitive creation of the VAE model:

In [None]:
vae = Model(inputs, x_decoded_mean)

In [None]:
# Loss function
kl_weight = 0.1

reconstruction_loss = K.sum(K.sparse_categorical_crossentropy(inputs, x_decoded_mean), axis=-1)
kl_loss = 1 + z_log_var - K.square(z_mean) - K.exp(z_log_var)
kl_loss = K.sum(kl_loss, axis=-1)
kl_loss *= -0.5
vae_loss = K.mean(reconstruction_loss + kl_weight * kl_loss)
vae.add_loss(vae_loss)
vae.compile(optimizer='adam')

In [None]:
vae.fit(predictors, epochs=150 , batch_size=16, validation_split=0.1)

In [None]:
decoder_input = Input(shape=(latent_dim,))
decoder_h = Dense(128, activation='relu')
h_decoded = decoder_h(decoder_input)
x_decoded_mean = RepeatVector(max_sequence_len)(h_decoded)
x_decoded_mean = LSTM(128, return_sequences=True)(x_decoded_mean)
x_decoded_mean = TimeDistributed(Dense(input_dim, activation='softmax'))(x_decoded_mean)

decoder = Model(decoder_input, x_decoded_mean)

def generate_text(decoder, latent_dim, word_index, max_sequence_len, num_samples=1):
    sampled_latent_vectors = np.random.normal(size=(num_samples, latent_dim))

    decoded_sequences = decoder.predict(sampled_latent_vectors)

    index_word = {v: k for k, v in word_index.items()}

    generated_texts = []
    for seq in decoded_sequences:
        generated_text = ' '.join([index_word.get(index, '') for index in np.argmax(seq, axis=1)])
        generated_texts.append(generated_text)

    return generated_texts

generated_texts = generate_text(decoder, latent_dim, word_index, max_sequence_len, num_samples=5)
for i, text in enumerate(generated_texts):
    print(f"Generated text {i+1}: {text}")


Generated text 1: qual qual qual qual qual qual qual qual coscienza passa passa passa passa passa passa passa passa passa passa passa
Generated text 2: qual qual qual qual qual qual qual qual qual qual qual qual qual qual qual qual qual qual qual qual
Generated text 3: baci baci baci baci baci baci baci baci baci baci pur pur pur pur pur pur pur pur pur pur
Generated text 4: coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz coscienz
Generated text 5: raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele raffaele


As we can see, not even the VAE model works well for text generation. This is because of the limited data set.
As a result, we try to use pre-addressed models.

## **GEMINI-PRO**
The first pre-trained model that was used is Gemini-pro via the API offered by Gemini

In [None]:
!pip install -q -U google-generativeai

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m164.2/164.2 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m718.3/718.3 kB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Import the Python SDK
import google.generativeai as genai
# Used to securely store your API key
from google.colab import userdata

GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')
genai.configure(api_key=GOOGLE_API_KEY)

In [None]:
model = genai.GenerativeModel('gemini-pro')

In [None]:
frasi = df[df['region']=='puglia']['text'][:10].values
regione = puglia
frasi

'[\' una grandissima artista barese ci lascia. addio a mariolina de fano. eccola qui che interpreta la vecchie e la mort via \'\n " raffaele, mi sembra che sto\'parlando con mio figlio. quindi basta dire munnu e\' munnu sara\'. mi da fastidio, di chi non vuole collaborare con l\'italia. "\n \'bbeddhi comu lu sule \' \' versione barese. la nonn gastema ! scritto da \'\n " la reazione di mio padre, da incorniciare, come al solito: ma tu vid nu picc, mo t\'aviva nca! pur sop a la coscienz\' t\'avevna tne l sant midc! (trad.: guarda un po\' che adesso dovevi soffocarti! pure sulla coscienza ti dovevano tenere ermal e fabrizio!) "\n \'na brutta fac\'\n \' accendo la tv, papa guarda la tv, mi guarda: qual d l sant midc aspttam staser? ha gia capito tutto. \'\n \'none e fore te capu\'\n \'un mese sanza de te e gia passato un mese da quando te ne sei annato da qhessa vita ci manchi tanto gigi arrivederci matta\'\n "sei molto bella vieni a trovarmi. qui c\'e lu vento lu sole lu mare. baci amore

In [None]:
prompt = "Scrivimi 10 frasi lunghe in dialetto della puglia dammele in csv"

In [None]:
response = model.generate_content(prompt)
print(response.text)

| Originale dialettale | Traduzione |
|---|---|
| "L'ave capite ca stè scurde 'ngule, uè?" | Hai capito che sta facendo buio qui, eh? |
| "Quidde uè, u bbène 'na fusse e u ddòmene ammure i' bbramme" | Quello lì, ti dà una botta e il giorno dopo ti tira le orecchie |
| "S'avìje fattende a u mare, purtatine 'ngule u paste de mandule" | Se andate al mare, portateci anche i pasticcini di mandorle |
| "U tiembbe dùre u bbène e ddùre u male, sta' sempre luatezze" | Il tempo dura sia il bene che il male, stai sempre attento |
| "Nun mbi ne scorde ca si' figliu meje, e 'u sange meje scorre 'nd'u core tue" | Non dimenticare mai che sei figlio mio, e che il mio sangue scorre nel tuo cuore |
| "Acceppette uanne 'u diaule te chiame, e t'embie a ddumandà 'na ssande rrube" | Accetta quando il diavolo ti chiama, e ti manda a chiedere una santa croce |
| "U ciuane, quanne 'u uede u lupu, s'amminacce a u quaglie e 'u scìppe" | Il cucciolo, quando vede il lupo, minaccia la quaglia e la prende |
| "A ggh

It doesn’t work bad.

## GPT-2
To get more precision, let’s also try GPT-2.
On it is applied a fine-tuning phase for each dialect.

In [None]:
!pip install transformers[torch]



In [None]:
!pip install accelerate -U



In [None]:
import pandas as pd
from transformers import GPT2LMHeadModel, GPT2Tokenizer, Trainer, TrainingArguments, TextDataset, DataCollatorForLanguageModeling
from sklearn.model_selection import train_test_split
import os

regions = df['region'].unique()

for region in regions:
    region_df = df[df['region'] == region]
    texts = region_df['text'].tolist()

    train_texts, val_texts = train_test_split(texts, test_size=0.1, random_state=42)

    train_file = f'train_{region}.txt'
    val_file = f'val_{region}.txt'

    with open(train_file, 'w') as f:
        f.write('\n'.join(train_texts))

    with open(val_file, 'w') as f:
        f.write('\n'.join(val_texts))

    def load_dataset(train_path, val_path, tokenizer):
        train_dataset = TextDataset(
            file_path=train_path,
            tokenizer=tokenizer,
            block_size=128
        )
        val_dataset = TextDataset(
            file_path=val_path,
            tokenizer=tokenizer,
            block_size=128
        )
        return train_dataset, val_dataset

    model_name = 'gpt2'
    tokenizer = GPT2Tokenizer.from_pretrained(model_name)
    model = GPT2LMHeadModel.from_pretrained(model_name)

    train_dataset, val_dataset = load_dataset(train_file, val_file, tokenizer)

    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer,
        mlm=False,
    )

    training_args = TrainingArguments(
        output_dir=f'./results_{region}',
        overwrite_output_dir=True,
        num_train_epochs=3,
        per_device_train_batch_size=4,
        save_steps=10_000,
        save_total_limit=2,
        prediction_loss_only=True,
    )

    trainer = Trainer(
        model=model,
        args=training_args,
        data_collator=data_collator,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
    )

    trainer.train()

    model.save_pretrained(f'./fine_tuned_model_{region}')
    tokenizer.save_pretrained(f'./fine_tuned_model_{region}')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Step,Training Loss
500,4.8093
1000,4.3537




Step,Training Loss




Step,Training Loss




Step,Training Loss
500,4.8057




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss




Step,Training Loss


In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

def generate_sentence(region, input_text, max_length=100, num_return_sequences=1, top_k=50, top_p=0.95, temperature=0.7):
    model_path = f'./fine_tuned_model_{region}'
    tokenizer = GPT2Tokenizer.from_pretrained(model_path)
    model = GPT2LMHeadModel.from_pretrained(model_path)

    model.eval()

    input_ids = tokenizer.encode(input_text, return_tensors='pt')

    output = model.generate(
        input_ids,
        max_length=max_length,
        num_return_sequences=1,
        top_k=top_k,
        top_p=top_p,
        temperature=temperature
    )

    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

    return generated_text

region = "valle d'aosta"
input_text = "ciao"
generated_sentence = generate_sentence(region, input_text)
print(generated_sentence)


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


ciao, a former student of the Chinese Communist Party, said that the party's policy of "reform" was "a very serious mistake."

"The party's policy of reform is a very serious mistake," he said. "It is a very serious mistake. It is a very serious mistake. It is a very serious mistake."

The party's policy of "reform" is a very serious mistake. It is a very serious mistake. It is a very serious mistake


After a few attempts, GPT-2 doesn’t work so badly, but it always remains an English-based model and sometimes it doesn’t meet the task and responds in English.
So, let’s try to implement a model that has already been fine-tuned for the Italian language

##LLaMAntino-3-ANITA-8B-Inst-DPO-ITA
The selected model is **LLaMAntino-3-ANITA-8B-Inst-DPO-ITA** which is a large language model developed for advanced natural language processing (NLP) applications in Italian, such as text generation, machine translation, completion of sentences and answers to questions. Thanks to its 8 billion parameters, it can handle complex tasks and provide more accurate and contextually relevant answers.

In [None]:
!pip install pyarrow<15.0.0a0,>=14.0.1
!pip install requests==2.31.0
!pip install pyarrow >=2
!pip install -U transformers trl peft accelerate bitsandbytes

/bin/bash: line 1: 15.0.0a0,: No such file or directory
Collecting transformers
  Downloading transformers-4.42.4-py3-none-any.whl (9.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.3/9.3 MB[0m [31m23.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trl
  Downloading trl-0.9.6-py3-none-any.whl (245 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m245.8/245.8 kB[0m [31m25.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting peft
  Downloading peft-0.11.1-py3-none-any.whl (251 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m251.6/251.6 kB[0m [31m29.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting accelerate
  Downloading accelerate-0.32.1-py3-none-any.whl (314 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m314.1/314.1 kB[0m [31m33.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting bitsandbytes
  Downloading bitsandbytes-0.43.1-py3-none-manylinux_2_24_x86_64.whl (119.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━

In [None]:
df_initial= pd.read_csv("NLP_DatasetPrima.csv")
df_prov = pd.read_csv("NLP_Dataset_OS.csv")

In [None]:
#the model upload

import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
)

base_model = "swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=False,
)

model = AutoModelForCausalLM.from_pretrained(
    base_model,
    quantization_config=bnb_config,
    device_map="auto",
)

tokenizer = AutoTokenizer.from_pretrained(base_model)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/654 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/182 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
sys = "Sei un assistente digitale AI per la lingua dialettale italiana di nome LLaMAntino-3 ANITA." \
    "(Advanced Natural-based interaction for the ITAlian language)." \
    " Rispondi imitando il linguaggio con cui ti vengono passate le frasi."

import transformers
pipe = transformers.pipeline(
    model=model,
    tokenizer=tokenizer,
    return_full_text=False, # langchain expects the full text
    task='text-generation',
    max_new_tokens=512, # max number of tokens to generate in the output
    temperature=0.6,  #temperature for more or less creative answers
    do_sample=True,
    top_p=0.9,
)

In [None]:
text = df_initial[df_initial['region']=='puglia']['text'].tolist()
prompt = f"Le frasi delimitate da \' sono frasi del dialetto di Puglia: \'{text[0]}\',\'{text[1]}\',\'{text[2]}\',\'{text[3]}\',\'{text[4]}\'.Generami altre 10 frasi del dialetto pugliese. Senza introduzione. Senza elenco puntato"

In [None]:
messages = [
    {"role": "system", "content": sys},
    {"role": "user", "content": prompt}
]

sequences = pipe(messages)
for seq in sequences:
    print(f"{seq['generated_text']}")

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Cu' 'na gran'de pessime notti invernali  
Fa difìcile usci' a fa' someje  
Munnu ca s'addimmora, s'addimmora  
Nn'è cchiù roba a fà, si s'addorme  
E ccà ven' a fà dispiacere a mamma  
Nn'è 'nu omme ca no' pecca, pecca pure 'o santo  
T'aspetta 'a st'anne e t'aspetta 'n'altra  
Cchiù mali ca bene, cchiù mali ca bene  
Facc' a mme a penza, a mme a penza  
Chiddh' ca s'innamora, s'innamora a l'immagine';


Among the generation models, this is the most suitable. Then, in the next step, we will use LLaMAntino-3-ANITA-8B-Inst-DPO-ITA for generating new sentences.

## **OVER-SAMPLING**

In [None]:
df_prov = pd.read_csv("NLP_Dataset_OS.csv")
print(df_prov.shape)

add = {"text": [], "region": []}

regions = ['veneto','lombardia','sicilia','toscana','sardegna','emilia romagna','calabria','puglia','piemonte','liguria','friuli-venezia giulia','marche','abruzzo','umbria','trentino-alto adige','basilicata','molise','valle d\'aosta']

for region in regions:
    texts = df_initial[df_initial['region'] == region]['text'].tolist()

    random_choose = []
    for _ in range(7):
      random_choose.append(randint(0, len(texts)-1))

    prompt = f"Le frasi delimitate da \' sono frasi del dialetto della regione {region}: \'{texts[random_choose[0]]}\',\'{texts[random_choose[1]]}\',\'{texts[random_choose[2]]}\',\'{texts[random_choose[3]]}\',\'{texts[random_choose[4]]}\',\'{texts[random_choose[5]]}\',\'{texts[random_choose[6]]}\'.Genera 80 frasi del dialetto di {region}.Senza introduzione. Senza elenco puntato.Senza righe vuote. Termina ogni frase con \n."

    print(prompt)
    print("\n")

    messages = [
        {"role": "system", "content": sys},
        {"role": "user", "content": prompt}
    ]

    sequences = pipe(messages)

    for seq in sequences:
        generated_text = seq['generated_text']
        print(f"{seq['generated_text']}")

        # Split phrases into separate rows (if necessary)
        if "\n" in generated_text:
            phrases = generated_text.split("\n")
            add["text"].extend(phrases)
            add["region"].extend([region] * len(phrases))
        else:
            add["text"].append(generated_text)
            add["region"].append(region)



Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


(415, 2)
Le frasi delimitate da ' sono frasi del dialetto della regione veneto: 'chirurghi ingenieri economisti..ma allora qui cosa ci farebbe... ma va a ciapa' i ratt ebete','vacca varda che mutande onte che te ghe',' in veneto popolo c'e un proverbio che dice sta lontan dal culo del mulo, dal dente del can e da chi ga sempre la corona in man ','abbiamo iniziato a studiare il caso di brendola. 'dio come queo dea cisterna'','mi aspetto 5 6 7 8 9 .....69...quea xe 'na bea giornata ... bon pomeriggio','spriz seletct ovvero spriz veneziano','e quindi e quello che dicono pure loro. forse per voi e troppo bassa la stima, aspettiamo che arrivi al 50% di furbi per dire che fatto cosi il rdc e na boiata.'.Genera 80 frasi del dialetto di veneto.Senza introduzione. Senza elenco puntato.Senza righe vuote. Termina ogni frase con 
.




Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


qua ghe é poca pazienza. 
femmo un errore in calcolo, in calcolo se el ghe dà ancona. 
tuti i dì a cason, no i dì de tuti i cas. 
e ghe é invidio a el che ghe cate in man. 
mi dispiace no ghe é in cà. 
a quei de vent'anni no ghe interessa. 
in veneto dìo no ghe aiuta el fio a no farghe el male. 
in sta sità no ghe é on in post. 
l'om che ga no dòpia no ghe conpede el dòpio. 
tornè in cà con le man in stà. 
el ze un om che no ghe caza in testa. 
ghe dispiace ma no ghe é in ofisa. 
no ghe é bon in sti dì de inverno. 
in sti momenti no ghe é on in stado de espirito. 
ghe dispiace no ghe é in storicin. 
l'om che ga no respeto pae el fio. 
tornemo in cà co la fame in stà. 
no ghe é bon in sta caza. 
el ze un om che no ghe caza in sè. 
a quei de quarant'anni ghe conpede el tempo. 
el no ghe capiss, no ghe capì, no ghe capirà. 
in sti momenti no ghe é on in pace. 
in sta caza no ghe é on in ordre. 
a quei de trenta ghe conpede el matrimonio. 
ghe dispiace no ghe é in ofisa, ghe dispiace no gh

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Casa nostra aér sempre stada bella, 
in borsa a gh'ha quaj, in test a gh'ha men, 
e l'altro, quell' là, a l'é staccade, 
anca quand a l'é tornà, a l'é staccade. 
E in general a gh'hév un'altra idea, 
el, quell' là, el gh'ha la sò, 
e in cör a l'é un disaccord, 
el, quell' là, el s'aspettava l'alter. 
A l'é stada una giornada inutil, 
con in fin a l'ha fà pòv, 
e l'altr a l'é andà via, 
e mì a gh'ho da pensà a l'altro dì. 
A gh'é un'ora in la settimana, 
in la domenega, a gh'é un'ora, 
che mì a gh'ho da passà in ver, 
senza 'n not, senza 'n sorris, 
in ver, in ver, senza 'n pens, 
a gh'é un'ora, a gh'é un'ora, 
in la domenega, a gh'é un'ora. 
In cà a gh'é un gran disord, 
e mì a gh'ho da dà un'ord, 
ma el mè fradèl, 
el no 'l vèl, el no 'l vèl, 
el no 'l vèl, el no 'l vè, 
el no 'l vè, el no gh'é, 
el no gh'é, el no gh'é più, 
però mì a gh'ho da dà, 
però mì a gh'ho da dà un'ord, 
e a gh'é speranza, 
che mì a gh'ho da dà in manera, 
che el mè fradèl, 
el vèl, el vè, el vè, 
el vè, el vè

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Ci sunnu dui còppoli di sora. 
C'è chi si fa diri cchiù di cio ch'è. 
E cc'è chi nun si move un caosso. 
Sto a virdi comu si va a finiri. 
Ntra li strata non si canta a tuttu. 
A l'anniversariu d'un'anni ancora, 
Stu pizzu di pioggia si sposta a sinistra. 
Cchiù male di chiddu ca nu joca. 
Nun è a vera la mumentanza. 
E cc'è chi si fa diri ca va a céntru. 
Cchiù curiosu di chiddu ca sta a jazzi. 
Ntra l'acqua non si bagna a tè. 
C'è chi si spasa a l'aria. 
Stu mari di sabbia si muove a nisciuna parti. 
A l'omu s'addubba di falliri. 
Nun si canta a l'ora di sè. 
Stu còppolo di sora si sposta a l'ovirri. 
E cc'è chi si fa diri ca va a scola. 
Ntra li strata non si camina a tuttu. 
Cchiù stortu di chiddu ca si fa diri. 
Nun è a vera a sincerità. 
Stu pizzu di pioggia si sposta a sinistra. 
Cchiù pazzi di chiddu ca si fa diri. 
E cc'è chi nun si muove un passu. 
A l'omu s'addubba di mali. 
Stu mari di sabbia si muove a nisciuna parti. 
Ntra l'acqua si bagna a pochi. 
Cchiù cchiù male di ch

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


mi piace andare a spassarmi a san casciano. 
il pizzico di pepe fa la differenza, in generale. 
io non ci vado, a quell'incontro, chè non è il mio genio. 
il mio compagno di scuola, è andato in banca, in seguito. 
come si chiama, il ristorante, là in piazza, dove mangiavamo, una volta? 
in quel giorno di pioggia, non ne valeva la pena, uscire. 
se no, gli davo un calcio, al suo progetto, naturalmente. 
a mezzogiorno, andiamo a mangiare, in famiglia, sempre. 
in campionato, a siena, il nostro club, non va più, in su. 
è inutile, discutere, con chi non vuole, ascoltare. 
io non so, il nome, del ristorante, là in piazza, dove mangiavamo, una volta. 
è un'ingiustizia, non dar nè un minuto, di tiro, al giovane. 
se non è disponibile, il mio amico, non posso, andare. 
il mio nonno, non era un grande, amante, del traffico. 
io non ci andrò, al suo matrimonio, chè non lo conosco, in generale. 
è inutile, cercare, la moneta, per la fitta nebbia, di un discorso. 
non è un problema, se non beve, 

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


S'omini a sos montes si dementan cun sa soli. 
Su tempus passadu est unu in su presente cun sa memoria. 
Su mari nostru est unu mare de poesia e de guerra. 
S'omini de su passadu si nchirchjan in su sardu a cuncordu. 
Unu s'omini s'arrussolu in su sardu cun sa mamma. 
Su logudoresu est unu logu de sa bellezza e de sa cultura. 
S'omini a su monte si nchirchjan in su sardu a cuncordu. 
Sa limba sarda est unu patrimmoniu vivu e dinàmigu. 
Sa giuventù sarda est unu focu de passione e de lotta. 
Su sardu est unu limba chi si cumprende cun su cuore. 
Sa cultura sarda est unu patrimmoniu a tutta sa umanidade. 
Su nuraghe est unu monumentu a testa de s'omini. 
Sa poesia sarda est unu cantu a su ventu e a su mari. 
S'omini a su mare si lassant in sa contemplazione. 
Sa saidea sarda est una limba chi si faet vivu. 
Unu s'omini si lassat in sa saidea sarda. 
Sa limba sarda est unu sigulu de identidade. 
S'omini a su monte si nchirchjan in sa saidea sarda. 
Sa saidea sarda est unu patrimmoniu a tu

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Te ghe dago un pò de riezendo, ma i mei informitec no gh'a da rispond' in sti mod, ma in stiò, cioè bene, per dir....  
Al dì d'incò, i mei nonno no s'aspettava de veder un ragazzo che se ten sù col smartphone tutta la giornata, e no con l'aria di capir gò.  
No i andò a la mossa in piazza, al sè a la mossa in rete, e in vece de far un pa de cal, fa un pa de dito virtuoso col like e col comment.  
E ghe vegn anca un tipo de rabbia, quél che no s'accorda de no vèser sèguito, de no vèser còlto.  
I mei cugnà, lu s'è mess a studia' l'informatiga, e adess a l'è in gara con i giovane, in vece de caccia in montagna.  
I mei zite, le s'aspettavaan de veder un marid in gh'arma, e no in tuta quèlla roba de moda.  
Ghe vegn anca un tipo de rassurn, quél che s'aspetta de vèser sò, de vèser aspetà.  
In campagn, al è più bel in auton, quand i camp è verdi e i frut è matur.  
No i gh'è anma, che andè a fa un giret in bicicleta, senza un ascolt a un bell sò.  
E ghe vegn anca un tipo de inghjot, qué

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


S'aspettau ca veni,. 
S'ha ditatu ca a sera andàmu a mangià,. 
Caminàmu ccu la famiglia e andàmu a Pizzo,. 
C'è statu un bellu sole a Pizzo,. 
Faccimu a merenda a Pizzo,. 
Un caffè e na pasticca,. 
Sti notti d'inverno,. 
S'ha presu un cassetto di ciavuramedda,. 
Mio fratru e andatu a Crotone,. 
S'ha dettu ca a Crotone c'è statu un bellu mercatu,. 
L'acqua di Sparta,. 
Faccimu a spasso a Sparta,. 
Caminàmu pe' i sentieri,. 
S'ha vistu un bellu panorama,. 
Fimmina juventina calavrise,. 
Mio zio e andatu a Reggio,. 
S'ha dettu ca a Reggio c'è statu un bellu mare,. 
Caminàmu a mare,. 
M'ha datu un baghjettu,. 
S'ha perdu a chiavetta,. 
Faccimu a cercà,. 
Mio patri e ditatu ca a vita e lunga,. 
S'ha dettu ca a vita e bellu,. 
S'aspetta a primavera,. 
S'ha ditatu ca a primavera e vicina,. 
Faccimu a festa,. 
S'ha mangiato a panu ca'zu,. 
Mio fratru e andatu a Cosenza,. 
S'ha dettu ca a Cosenza c'è statu un bellu museu,. 
Caminàmu a museu,. 
S'ha vistu un bellu pittura,. 
M'ha datu un sorrisu

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Cu mme so' andatu a Poggioreale a festa, ma a minchia so' stata a l'auto in riparazzione. 
Cosa faje a sera quand'è caldo e nu viento 'nfurna a finestra. 
A maje a dispiaccie pe' chidd'ha pecato, ma a maje a dispiaccie pe' chidd'ha sofruto. 
S'è andatu a San Vito a caccia, ma a tornatu a manda a dì a maje ca n'ha caccato niente. 
Mare e sole d'inverno no' s'arriprende, a se'mpiede a neve. 
A cchi a dice ca a so' intelligent, a cchi a fa ca a so' intelligente. 
A maje a diri ca a so' stata a casa, ma a maje a menti ca a so' stata a mare. 
Cosa faje a feste se no' t'aspetta a nisciuna a persona. 
A maje a diri ca a so' felice, ma a maje a so' cchi a soffre. 
A se' a scappato a scola, a se' a ristretto a casa a nun a fà nudda. 
Femma pugliese ca se fa a cullà a putijiele, a nun se fa a cullà a figliuole. 
S'è a messu a la polizia, a l'han a dì a maje a nun faje a cchi a. 
A maje a diri ca a so' a bona persona, ma a maje a faje a cchi a cattiva azione. 
Mare e sole d'estate s'arriprende, a

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


C'a l'è 'na giornada da nebbia. 
Cò, a me pare che 'l è inùtil. 
Quel pô, a me l'ha dit a 'l amich. 
In montagna a l'è più bel in autùn. 
L'è andà a caccia e ghe l'ha portà 'n conig. 
A me l'ha detto e a me l'ho credìü. 
E tu, a gh'è rivisto quell'om? 
A gh'è un'oca, a gh'è un'oca grande. 
A me l'ha dato 'n pom in regalo. 
Ghe l'ha detto a la sò mère. 
A me piace la polenta cun la lard. 
Quel pò, a l'è andà a lavorà. 
La mè sore a l'ha fà la crosa. 
In pian a l'è più cald d'in mont. 
L'è andà a scola e a l'ha portà 'l quadern. 
A m'hò detto e a m'ho cremej. 
Quel pô, a l'è andà a gara. 
Ghe l'ha dat a la sò fia. 
Cò, a m'hò dito a mì. 
A m'hò scrit 'na lètra a mì. 
L'è andà a còll a l'è rivà tard. 
A m'hò detto a mì stess. 
L'è andà a festa e a l'è tornà 'n ora tard. 
In autùn a l'è andà a caccia. 
A m'hò mangià 'n panett cù. 
Quel pô, a l'è andà a scuola. 
Ghe l'ha dat a sò fradèl. 
A m'hò detto a m'hò credìü. 
Cò, a l'è inùtil ch'a vaga. 
Quel pô, a l'è andà a festa. 
A m'hò fà 'l ba

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


A l'è pronta a partì, ma no con la giusta velocità. 
No, i zeneize, no i toscanelli, no i piemontesi, no i lombardi, ce n'è un pò de cummicò in ogni còrsa, ma in zena, in zena, ce n'è de più. 
A me pare che i lòscen, i stava a dàit, a no ghe dàian còssa. 
E gh'è anmò chi, in sti moment, cred a 'na vittoria, a no la ved anmò l'àtera còrsa. 
A no m'aspettava 'na difesa sò tanta, ma a l'è stada miga bona, miga bona. 
E in sti moment, chi gh'è a fà l'analisi politica, a no la fa miga ben. 
In Liguria, in Liguria, a no gh'è anmò tanti de i nosti, ma a gh'è anmò zeneize, a gh'è anmò rivierasche, a gh'è anmò ponfierasche, a gh'è anmò camoglisce. 
Ghe penso, a no gh'è stada fàita giusta giusta giusta, a l'è stada fàita a scapèl, a l'è stada fàita a cazz, a l'è stada fàita. 
A l'è stada fàita a dàit, a no gh'è stada fàita a man, a l'è stada fàita. 
In sti moment, chi gh'è a dir "a va bèn", a no l'ha capito, a no l'ha capito, a no l'ha capito. 
A no gh'è stada fàita a favoei, a l'è stada fàita a

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Na val de sere, in mont, i stoni s'incavetin. 
Ti aspietas, invar, el dì che tu vns return. 
No ghe faltà, in cal, un bèl caldèl. 
La me nona, in primavil, la fa i fior. 
I pont, in brenta, i dà an impression forte. 
Gnûf, in stadi, no ghe é più spati. 
La me gera, in famee, la fa la cuina. 
No varda, in te, el so stacai. 
Ti speri, in un dì, el so return. 
Un pò, in più, un gò, un sorriso. 
I furlan, in trieste, i stùdies. 
La me sore, in foto, la rassembra. 
Na gior, in esté, la fa calda. 
No t'aspieta, invar, el dì che tu partis. 
Un pò, in cal, un bèl caldèl. 
Ti saludi, in scrit, un caro salut. 
La me vita, in trieste, la s'è fata. 
Un gò, in più, un pò de son. 
I cim, in mont, i s'incavetin forte. 
La me nona, in cuina, la fa i gnocj. 
Ti vns, invar, a vns return. 
No ghe varda, in te, el so sorriso. 
La me gera, in famee, la fa la menù. 
Un pò, in più, un pò de pace. 
I furlan, in rome, i stùdies no. 
La me sore, in gial, la rassembra. 
Na gior, in sté, la fa calda. 
La me vita,

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Semo andati a festa la notte e me l'ha detto il fratellino. 
Santo cielo che era stanco d'aspettare. 
C'è l'uva e ce n'è de poco. 
Fosse stato mio fratello ce l'avria detto. 
L'ho vista la mia cugna a Sant'Egle. 
Semo andati al mercato in due. 
Invece de andare al cinema s'è andato a casa. 
Me l'ha detto la sorella che c'era la festa. 
Semo partiti alle 7 e s'è fatto giorno in cielo. 
L'ha detto lui che non c'era la macchina. 
Semo stati a casa tutta la giornata. 
L'ho conosciuta a Sassoferrato. 
L'ha detto lui che era inutile. 
Semo stati in paese e non c'era nudda. 
L'ha detto la mamma che era stanco. 
Semo stati a fare la spesa con la mamma. 
Era stanco d'aspettare il suo amico. 
Semo stati in biblioteca a studia. 
Invece de andare a casa s'è andato a fare un giro. 
Me l'ha detto il fratello che non c'era. 
Semo stati a fare un giro in paese. 
Semo stati a casa in due. 
L'ha detto lui che era un'ora. 
Semo stati a fare la spesa in nott. 
Semo andati a fare una passeggiata. 
Me l'ha 

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


s'è fermato 'o camion. 
s'ha azzoppato lu sistema. 
sta n'ora ca nun me va. 
l'acqua 'a gela in inverno. 
c'era da spiegà a mio fratello. 
me pareva de finire in catastrofe. 
s'ha azzardato a dirlo. 
nun m'aspettava ca se dicesse. 
l'ho cercato in tutta a città. 
j'era dispienso, era rabbia, era disperazione. 
l'ha detto ca nun c'è speranza. 
me sembra de vederli ancora. 
sta a venì, sta a venì, nun m'ha detto c'hora. 
s'ha perso in a strada. 
me sento 'nu desiderio de fuggì. 
nun c'è più a mia nonna. 
l'ha detto ca m'aspetta. 
sta a venne la notte. 
j'ho detto ca nun m'andrei. 
l'ha fatto in un attimo. 
c'era da fà in due. 
nun m'ha dato cune risposta. 
s'ha azzardato a chiedere. 
sta a venne la primavera. 
l'ho cercato in tutta a famiglia. 
me pareva de non respirà. 
sta a venne la sera. 
l'ha detto ca nun c'è pace. 
j'era dispienso, era rabbia, era disperazione. 
l'ha detto ca m'ha tradito. 
me sento 'nu vuoto in a panza. 
sta a venne l'estate. 
nun m'ha dato cune speranza. 
l'ha fa

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


S'è andà a Spole't, nudd invidiâ. 
S'è 'ncontrà 'l so frate a Terni, che ghe diseva de venì a gare a Perugia. 
A me nun m'interessa, ghe vado a gare. 
S'è piovù, nun s'è andà a gare. 
A me ghe piace, ghe dà 'na gran passione. 
L'uom t'ha detto, "T'as da partì a l'ora". 
Se t'as da partì a l'ora, t'as da giù a cà. 
S'è andà a gare, s'è ritornà a cà. 
T'ha dito, "T'as un bel motor". 
Un bel motor, ma t'ha avuto un problema. 
S'è scapà la gara, nun s'è andà a piagné. 
Ghe diseva, "S'è andà, s'è andà". 
S'è andà, ma l'uom t'ha detto, "T'as tard' ". 
T'as tard', ma s'è partìo, s'è giontato. 
L'uom t'ha detto, "T'as fatta una gara pè l'altr' ". 
Una gara pè l'altr', ma s'è ghe data tanta fatica. 
A me nun m'interessa, ghe vado a magna'. 
Se magna come se sona, se sona come se magna. 
T'ha detto, "T'as da vè a gare". 
T'as da vè, ma s'è dà 'na gamba a tèra. 
S'è preso, s'è portà a speta'. 
S'è andà a gare, s'è ritornà a speta'. 
A me ghe piace, ghe dà 'na gran soddisfaziun. 
L'uom t'ha detto,

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


in autonome no ghe son più bei come in mont'; 
dopo la neva, i sentieri i è deserto'; 
no, el no ghe va pì'; 
i cör, i ghe custruisse un bel casin'; 
i vèsseri in calei, no ghe dispara el fresco'; 
dòmina no, om che lavora, ghe dà un dì de riposo'; 
i no ghe dà ancu el prim'; 
el fio, ghe dixe: "pà, i vado a scuola, ghe aspetto el tuo "si, fai cal e vieni""'; 
i cumin i è stade in cantin'; 
in mont, no ghe jè on fa'; 
el vèsser, ghe diseva: "me, ghe vado a catar un po' d'acqua, te vèn ben tìrte""'; 
in autonome, no i è gnanca un cèf'; 
ghe dà ancu el segondo dì de festa'; 
in pian, i è stade mai'; 
no, i no ghe dispara el nome'; 
el fio, ghe diseva: "pà, i vado a catar un po' de neva, te vèn con mì""'; 
in val, no ghe jè on cör'; 
i vèsseri, ghe diseva: "me, ghe vado a catar un po' de legna, te vèn con mì""'; 
no, i no ghe è ancu on'; 
in autonome, i è stade mai in calei'; 
dòmina no, om che lavora, ghe dà un dì de riposo'; 
el vèsser, ghe diseva: "me, ghe vado a catar un po' de verd, 

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


C'era l'uommo, ca stava a guardà 'a strada. 
Mangio pure ca non t'arrica nudda. 
A l'è 'a stagione, ca i ciclinde jiono 'n giardin. 
S'è fatta notte, ma a m'ha l'uocchie spie. 
L'altro jieri, a m'era sembre ca aieveva a piova. 
Tutto, pure nu caffè, m'ha fatto dormire male. 
L'ha ditto ca l'avria fatta, ma in realtà no. 
Mangio pure ca non t'arrica nudda, a me piace 'o formaggio. 
A m'ha detto: "Ferma, no' andà", ma a m'ho andato. 
A l'è 'a primmavera, e a l'aria m'è sofrida. 
L'è 'a sera, e a l'altro jieri a m'era a scuola. 
S'è fatta notte, e a m'ha detto: "Non t'impavida". 
Tutto, pure a mia sora, m'ha detto ca no, a l'ha detto a lui. 
E nun m'aspettava, a m'ha catturato 'a sorpresa. 
A l'è 'a strada, e a m'ha detto: "Torna, torna". 
Mangio pure ca a me piace a pizza castra. 
S'è fatta notte, e a m'ha detto: "T'aspetta". 
A l'è 'o mese, e a l'è 'a data, ca a m'era promess'. 
A m'ha ditto: "Ferma, no' andà", ma a m'ho andato a ballà. 
L'ha ditto ca l'avria fatta, ma in realtà a l'ha 

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


C'haje a dir a mme e nun a 'l mio pà. 
C'è n'omme ca t'aspetta a scurzia. 
S'è andatu a lavorà e s'è tornatu a nisciuna ora. 
Mme piace 'a sera a fa 'na passeggiata. 
T'ha detto ca vaje a Trivigno, ahahah. 
S'è fatta 'a sera bell'a, ma c'è 'na gran'umidità. 
Cchiu' bene ca mme, c'ha 'a testa ca s'aspetta. 
Mme pare ca vaje a Montagano, a passeggiare. 
S'ha perso 'o cane, ca s'era escappato. 
C'è 'nu paesano ca t'ha detto ca vaje a Campomari. 
Mme a vorebb'andà a caccia, ma c'è 'o mal di testa. 
Faccio a pensà ca vaje a San Giovanni, a nascità d'u mio frate. 
S'è fatta 'a nott'chiu' oscura, ca nun si vede nudd'. 
T'ha detto ca s'è aroppiato a lavorà, e s'è andatu a dormire. 
C'ha 'a moglie ca t'aspetta a scurzia, e nun t'ha vistu. 
S'ha dimenticato a chjàve, e s'è dàto 'o dispetto. 
Mme piace a dissi' a verità, e nun a fà finta. 
C'è 'nu paesano ca t'ha detto ca vaje a San Bartolomeo. 
S'ha preso 'o mal, e s'è andatu a veder 'o dottore. 
Faccio a sperà ca vaje a Montemitro, a visità mme

In [None]:
df_new = pd.DataFrame(add)
df_combined = pd.concat([df_prov, df_new], ignore_index=True)
df_combined['region'].value_counts()

region
abruzzo                  80
sicilia                  65
calabria                 62
marche                   59
lombardia                57
piemonte                 54
umbria                   54
basilicata               53
friuli-venezia giulia    52
trentino-alto adige      50
sardegna                 46
veneto                   44
emilia romagna           43
molise                   42
toscana                  41
puglia                   40
valle d'aosta            31
liguria                  29
Name: count, dtype: int64

In [None]:
df_combined.to_csv('NLP_Dataset_OS.csv',index=False)

In [None]:
df_combined.shape

(902, 2)

In [None]:
df_OS = pd.read_csv("Dataset_Quarto.csv")
df_combined = pd.concat([df_OS,df_combined], ignore_index=True)
df_combined.to_csv('Dataset_Quarto.csv',index=False)
df_combined['region'].value_counts()

region
lazio                    5614
campania                 3046
veneto                   1979
sicilia                  1848
lombardia                1802
toscana                  1649
sardegna                 1535
calabria                 1508
puglia                   1429
piemonte                 1413
friuli-venezia giulia    1387
emilia romagna           1379
marche                   1321
liguria                  1319
basilicata               1304
abruzzo                  1300
umbria                   1246
trentino-alto adige      1226
molise                   1226
valle d'aosta             948
Name: count, dtype: int64

In [None]:
df_combined.shape

(33577, 3)

After several iterations we managed to make the dataset bigger with the addition of 19,754 examples going also to increase the examples of the Minonitary classes.

# TASK: Classification of sentences by region
The main task that you want to satisfy in this project is the classification of dialect phrases by region.
To do this, an SVM classifier from SKlearn is implemented.

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
from imblearn.pipeline import Pipeline as ImbPipeline
from sklearn.base import TransformerMixin
from statistics import mean, stdev
from sklearn import preprocessing
from sklearn.model_selection import StratifiedKFold


In [None]:
df = pd.read_csv("Dataset_Quarto.csv")
df = df.drop(['Unnamed: 0'],axis = 1)
df

Unnamed: 0,text,region
0,"il chiosco bar e dove si e co i lettini,appen...",lazio
1,"so' monticiano, so', sangue de zio! so' nato ...",lazio
2,"veneziani, gran signori; padovani, gran dotor...",veneto
3,poi se bu avanzanu zeppule passati de casa ca ...,calabria
4,"come disse n'amica mia anni fa, alla seconda f...",lazio
...,...,...
34474,"Quand a l'é andà a scola, a l'ha pasàa la part...",valle d'aosta
34475,"A l'é andà a caccia, e a l'é tornà a cà, e a l...",valle d'aosta
34476,"I doi, i l'era andà a spasseggià, e a l'é stac...",valle d'aosta
34477,"A l'é mòrt a sò nonno, a l'ha dàita un pò' de ...",valle d'aosta


In [None]:
#decoding text from latin-1 to utf-8
df['text'] = df['text'].apply(lambda x: x.decode('latin-1') if isinstance(x, bytes) else x)
#replacing Nan values with empty strings
df['text'].fillna('', inplace=True)

In [None]:
X = df['text'].to_numpy()
y = df['region'].to_numpy()

In [None]:
textclassifier = ImbPipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('mnb', SVC())
])

In [None]:
from sklearn import metrics

n_splits = 20

fmacro = 0
fmicro = 0
facc = 0
frecall = 0
fprecision = 0
y_gt= []
y_pred = []

skf = StratifiedKFold(n_splits=n_splits, shuffle=True)

for train_index, test_index in skf.split(X, y):
  x_train_fold, x_test_fold = X[train_index], X[test_index]
  y_train_fold, y_test_fold = y[train_index], y[test_index]
  textclassifier.fit(x_train_fold, y_train_fold)
  pred = textclassifier.predict(x_test_fold)

  y_gt.extend(y_test_fold)
  y_pred.extend(pred)

  # Valutation metrics
  fmacro += metrics.f1_score(y_test_fold, pred, average='macro')
  fmicro += metrics.f1_score(y_test_fold, pred, average='micro')
  facc += metrics.accuracy_score(y_test_fold, pred)
  fprecision += metrics.precision_score(y_test_fold, pred, average='macro')
  frecall += metrics.recall_score(y_test_fold, pred, average='macro')

print("\n========================================================================================================================================")
print("Accuracy:", facc/n_splits)
print("P={0}, R={1}, F1 Macro={2}, F1 Micro={2}".format(fprecision/n_splits, frecall/n_splits, fmacro/n_splits, fmicro/n_splits))
print("========================================================================================================================================")
print(metrics.classification_report(y_gt, y_pred, digits=2))


Accuracy: 0.7005137770278733
P=0.7101501776285007, R=0.6471214558008442, F1 Macro=0.671757058855882, F1 Micro=0.671757058855882
                       precision    recall  f1-score   support

              abruzzo       0.64      0.51      0.57      1300
           basilicata       0.68      0.58      0.63      1304
             calabria       0.70      0.57      0.63      1508
             campania       0.78      0.85      0.81      3046
       emilia romagna       0.61      0.50      0.55      1379
friuli-venezia giulia       0.72      0.66      0.69      1387
                lazio       0.63      0.96      0.76      5614
              liguria       0.77      0.61      0.68      1319
            lombardia       0.70      0.60      0.64      1802
               marche       0.66      0.51      0.57      1321
               molise       0.66      0.57      0.61      1226
             piemonte       0.68      0.61      0.64      1413
               puglia       0.69      0.60      0.6

In [None]:
textclassifier.predict(["c'ama sci sciamanin"])

array(['puglia'], dtype=object)

We can see the results obtained. We can see that:
- Accuracy: The model achieved an overall accuracy of 70%, indicating that 70% of the phrases were correctly classified.
- Recall medium: The average recall is 65%, indicating that the model is moderately effective in capturing all dialect phrases for each region.
- F1 average score: The F1 average score is 67%, which represents a good balance between accuracy and recall.

In detail we have that:
- The dialect of Sardinia is classified more precisely.
- The dialect of the Emilia-Romagna region is classified with less precision.


# EXTRA TASK: Translation of dialect phrases

Another experiment that has been conducted within this project is to test Lamantino’s performance in translating dialect phrases.
To conduct this experiment was first loaded the model and defined its role within this task.


In [None]:
!pip install tqdm
from tqdm import tqdm



In [None]:
sys = "Sei un assistente digitale AI per la lingua dialettale italiana di nome LLaMAntino-3 ANITA." \
    "(Advanced Natural-based interaction for the ITAlian language)." \
    "Traduci in italiano le espressioni dialettali che si trovano all'interno del testo fornito dall'utente,ma senza cambiare il significato e la sintassi del testo. "

import transformers
pipe = transformers.pipeline(
    model=model,
    tokenizer=tokenizer,
    return_full_text=False, # langchain expects the full text
    task='text-generation',
    max_new_tokens=512, # max number of tokens to generate in the output
    temperature=0.5,  #temperature for more or less creative answers
    do_sample=True,
    top_p=0.9
)


In [None]:
import pandas as pd

df= pd.read_csv("Dataset_Quarto.csv")
add = {"trad": []}
df = df.drop(['Unnamed: 0'],axis = 1)
apulia = df[df['region']=='puglia']

In order to evaluate the quality of the translation, the task requires you to have a dataset containing manual translations, made by local people, of the sentences. So you can compare them with machine translations.
For time reasons, 100 sentences belonging to the Apulian dialect have been manually and automatically translated.

In [None]:
apulia = apulia[:100]
apulia

Unnamed: 0,text,region
34,una grandissima artista barese ci lascia. add...,puglia
52,"raffaele, mi sembra che sto'parlando con mio ...",puglia
59,bbeddhi comu lu sule,puglia
122,versione barese. la nonn gastema ! scritto da,puglia
325,"la reazione di mio padre, da incorniciare, co...",puglia
...,...,...
5490,te mpauri de mie tie ahahhah sine sine la porto,puglia
5530,anche perche no je manc sicur ca riman idd,puglia
5603,lu sule c'e. lu mare c'e... lu jentu...no...,puglia
5606,"aggiu' capito michele stai passando, con: cara...",puglia


In [None]:
for sentence in tqdm(apulia.to_numpy()):
  prompt = f"""Testo: "{sentence[0]}".
  Il testo è scritto nel dialetto della regione italiana {sentence[1]},
  traducilo in lingua italiana senza cambiare nè la sua semantica nè la sua sintassi.
  Termina la traduzione con un "\n".
  Non devono essere date in output altre informazioni oltre la traduzione.
  Non aggiungere parentesi o altri commenti. Non aggiungere parole inglesi o italiane che non siano già presenti nel testo.
  Lascia invariati i termini che sono già all'interno del testo in lingua italiana o inglese.
  Rispondi solo con la traduzione letterale.
  Non saltare nessuna parte del testo. Neanche quelle che originariamente sono tra perentesi nel testo.
  """

  messages = [
      {"role": "system", "content": sys},
      {"role": "user", "content": prompt}
  ]

  sequences = pipe(messages)

  for seq in sequences:
      generated_text = seq['generated_text']
      print(f"{seq['generated_text']}")

      # Split phrases into separate rows (if necessary)
      if "\n" in generated_text:
          phrases = generated_text.split("\n")
          add["trad"].extend(phrases)
      else:
          add["trad"].append(generated_text)


  0%|          | 0/100 [00:00<?, ?it/s]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
  1%|          | 1/100 [00:05<08:50,  5.36s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Una grande artista barese ci lascia. Addio a Mariolina de Fano. Eccola qui che interpreta la vecchia e la morte. "


  2%|▏         | 2/100 [00:11<09:28,  5.80s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Raffaele, mi sembra di dire cose che dicono mio figlio. Quindi basta dire: il mondo è il mondo sarà'. Mi dà fastidio, di chi non vuole collaborare con l'Italia. "


  3%|▎         | 3/100 [00:14<07:02,  4.36s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Bene come il sole"


  4%|▍         | 4/100 [00:17<06:24,  4.00s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Versione pugliese. la nonna è geniale! scritto da "


  5%|▌         | 5/100 [00:22<07:05,  4.48s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Guarda un po' che adesso dovresti soffocare! pure sulla coscienza ti dovrebbero tenere in paura Ermete e Fabrizio' ".


  6%|▌         | 6/100 [00:25<06:00,  3.83s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


una cattiva faccia'


  7%|▋         | 7/100 [00:30<06:24,  4.13s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Accendo la tv, nonno resta a guardare la tv, mi guarda: che ci sta aspettando, si è capito subito.


  8%|▊         | 8/100 [00:33<05:48,  3.79s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


None e non è con te, è con il capo'


  9%|▉         | 9/100 [00:38<06:11,  4.08s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Un mese senza di te e già passato un mese da quando te ne sei andato da qui, ci manchi tanto, giù arriverci, addio.


 10%|█         | 10/100 [00:42<06:26,  4.29s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Sei molto bella, vieni a trovarmi. qui c'è il vento, il sole, il mare. baci, amore mio.


 11%|█         | 11/100 [00:45<05:30,  3.71s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


e quando passa "


 12%|█▏        | 12/100 [00:48<05:18,  3.62s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


slow motion che non ha nulla a che fare, ma che sempre piace in fine.. "


 13%|█▎        | 13/100 [00:51<04:47,  3.30s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


ma non è giusto poco' "


 14%|█▍        | 14/100 [00:57<05:51,  4.09s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Secondo me la cosa è stata smontata dalla falsa notizia e questo è tutto... ecco i silenzi e tutte quelle storie fatte di sussurri etc etc... stiamo senza progresso!!! "


 15%|█▌        | 15/100 [01:00<05:25,  3.83s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Mum, mum, mum, forse un neurone si è illuminato"


 16%|█▌        | 16/100 [01:03<04:56,  3.53s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


 donne. fuori di testa. le migliori.


 17%|█▋        | 17/100 [01:07<05:05,  3.68s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Buongiorno bella rossa!!!! da quelle parti rosso si dice cosi, rossina.


 18%|█▊        | 18/100 [01:10<04:44,  3.47s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Hahahahahahha la risata del gatto".


 19%|█▉        | 19/100 [01:13<04:27,  3.31s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Salento... il sole... il mare... il vento.


 20%|██        | 20/100 [01:15<04:12,  3.15s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Il cielo, il mare, il vento ".


 21%|██        | 21/100 [01:21<05:12,  3.95s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Sia detto pure dopo. non prima e durante, mi pare una battuta di cattivo gusto però stanno soffocati da ansie, è necessario un gol di conforto e risolleve"


 22%|██▏       | 22/100 [01:25<05:06,  3.93s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Ci ridefinisce in giro il cappello sugli alti per lui sa sopra le cose del mondo"


 23%|██▎       | 23/100 [01:28<04:43,  3.68s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Sai cosa vuole dire esser tradito, accidì!


 24%|██▍       | 24/100 [01:37<06:31,  5.16s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Chi si fa crescere i capelli ora per moda e per TikTok, un mullet a quel tempo non lo portava nessuno, dov'era quando mi davano del renegato e quando i giullari uscivano con la loro lite con il barbiere, bro, la tua ragazza mi pettina, ma che non ne capisci tu, since 2003 ".


 25%|██▌       | 25/100 [01:40<05:43,  4.59s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Sabino: lo va a pigliare in un'altra birra.


 26%|██▌       | 26/100 [01:45<05:45,  4.67s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


ieri Google mi aveva assicurato che oggi ci sarebbero stati in meno, sta me pigliere pe il fatto?


 27%|██▋       | 27/100 [01:51<06:06,  5.03s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Ripropongo: la testa non serve a separare le orecchie (... cit.) (la testa non serve a sostenere le impugnature degli occhiali. (sembrano pochi)) ".


 28%|██▊       | 28/100 [01:53<05:09,  4.30s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Il mare il sole il vento "


 29%|██▉       | 29/100 [01:59<05:24,  4.57s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"a Leccë si dice ci cappa ci cappa, a Roma si dice dico dico, in Calabria a ci pigghia pigghia"


 30%|███       | 30/100 [02:05<05:59,  5.14s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Un'amica mi ha chiamato per chiedermi se "stu bebbe" fosse un termine pugliese o salentino, non potevo non condividerle questa perlita di insensato - non senso ci vu'".


 31%|███       | 31/100 [02:08<05:05,  4.43s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Non torni, non ritorna..."


 32%|███▏      | 32/100 [02:16<06:16,  5.53s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


... comunque: e inutile la morte del film, non c'è nulla di fatto! come urla dalla galleria, Gianni Ciardo al cinema Royal di Bari, durante il secondo tempo del film, dopo l'ennesimo fallimento di capire la piovra enorme. ricordi di una Bari che non c'è più. "


 33%|███▎      | 33/100 [02:19<05:32,  4.96s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Figlio mio disse mio padre a mio padre. Il mondo è stretto di sagare (il difficile).


 34%|███▍      | 34/100 [02:25<05:42,  5.18s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Un uomo distrutto siede su una panchina di Bari. E comunque meglio distrutto e felice come me come noi che distrutto e muto come li lazi in Roma'.


 35%|███▌      | 35/100 [02:28<04:55,  4.54s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"bravissimo fiore, con tutto il cuore"


 36%|███▌      | 36/100 [02:31<04:19,  4.06s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Un tipo di persona, si direbbe da quelle parti. "


 37%|███▋      | 37/100 [02:39<05:22,  5.11s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


La penso come te, Enrico, ce ne fossero persone come te, poi se abortisci te si sgrava la frasca, e mio padre diceva sempre che la frasca di una donna è come il marmo, va tenuto pulito e conservato in purezza.


 38%|███▊      | 38/100 [02:42<04:51,  4.71s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Per te vada bene, ma a me serve una ragazza con una bella perché... viva la fuga.


 39%|███▉      | 39/100 [02:45<04:06,  4.05s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Qui gli ha fatto gratuitamente "


 40%|████      | 40/100 [02:56<06:15,  6.26s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


ragazzi, questa donna, come si dice a Bari, è storta! leggete bene e dimenticate le menzogne che vi raccontano i negazionisti e i venduti ai sovranisti.
 la spagna, la francia, la grecia e la germania sono di nuovo nei guai, il regno unito non è mai uscito dai guai.


 41%|████      | 41/100 [03:00<05:17,  5.39s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


e diciamolo pure!!! è stato detto pure in tutta la città!


 42%|████▏     | 42/100 [03:08<06:09,  6.36s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Vado distratto abbandonato là dove sono le occhiate nascoste nel cappello, mano in mezzo al gelo e maschera inaspettata, vado cercando e stelle che sono secche e mi parla di te, io le domando se aspetta per me e mi risponde: se lo vuole sa che non c'e nessuno ".


 43%|████▎     | 43/100 [03:11<05:02,  5.30s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


+ 18 anni passati all'amore mio"


 44%|████▍     | 44/100 [03:16<04:48,  5.16s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Il cielo, il mare, il vento. Spero che si fermi, non vorrei che l'estate sia così' ".


 45%|████▌     | 45/100 [03:21<04:34,  4.99s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


uno e dio l'altro è uno che non crede in ciò che si crede in terra lo so e sarei un ateo ma fate una risata "


 46%|████▌     | 46/100 [03:24<04:08,  4.60s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Ok l'errore del portiere, ma in gabbia stanno quei sotti di casa"


 47%|████▋     | 47/100 [03:28<03:43,  4.22s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Non ha senso andare da mamma di Mark Zuckerberg"


 48%|████▊     | 48/100 [03:33<03:50,  4.44s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Che sciocchezza di notizia e? ma siete in credibili? che relazione c'è col vaccino? o relazione ce fa un di mammo di zero? "


 49%|████▉     | 49/100 [03:35<03:14,  3.82s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"E un gran bene!"


 50%|█████     | 50/100 [03:46<04:51,  5.83s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Ricordi i pranzi estivi di mia nonna: orecchiette fatte in casa con ragù! Scarso, duecento cinquanta grammi! Carne nel sugo di tutte le tipologie! Cotolette con patate fritte e insalata! Formaggi vari, che ti avrebbe mangiato! Macedonia e baba! Questo in mezzo alla settimana! La domenica non ve lo racconto.


 51%|█████     | 51/100 [03:55<05:38,  6.91s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Come mi ha detto un collega dopo una partita a Melito con la squadra dell'ordine, quando io gli ho detto: "nel manuale dell'ingegnere trovi facilmente un piccolo telaio, un telaietto risolto! - te lo dico? sta' tranquillo, ché sta a sacciu!"
" (ancora rido)".


 52%|█████▏    | 52/100 [04:01<05:13,  6.53s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


anche qui si dice: il purpiero si cuoce nell'acqua sua
btw dato un'occhiata alla Le Creuset evolution che penso sia la tua
consiglio la 26 o 28 cm? "


 53%|█████▎    | 53/100 [04:09<05:38,  7.19s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Dormi bene dormi cara il Signore ti benedica dormi figlia non ti spaventare ca' niente chiuso ti può tocare dimentica gli ultimi urti troppo chini di dolori chiudi gli occhi tu bene stringimi la mano all'angolo buon viaggio piccola e dolce Elena.


 54%|█████▍    | 54/100 [04:12<04:31,  5.91s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Il sole, il mare, i lampioni. "


 55%|█████▌    | 55/100 [04:15<03:45,  5.02s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Salento: il mare, il sole e il vento "


 56%|█████▌    | 56/100 [04:19<03:27,  4.70s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Oh signore, ti è passato sopra un tiro? e fattela una risata"


 57%|█████▋    | 57/100 [04:22<02:55,  4.09s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Il dialetto ti francostra "


 58%|█████▊    | 58/100 [04:24<02:33,  3.66s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Mammaaaaa, mi vado male..."


 59%|█████▉    | 59/100 [04:27<02:16,  3.32s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Te voglio bene assai"


 60%|██████    | 60/100 [04:31<02:23,  3.58s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Avevo domani giù vedo alla festa di Sandanò... ah, no..."


 61%|██████    | 61/100 [04:34<02:14,  3.44s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Il cielo, il mare e il sfruttamento. "


 62%|██████▏   | 62/100 [04:37<02:01,  3.21s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Mama, c'è brutto"


 63%|██████▎   | 63/100 [04:41<02:07,  3.44s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


il primo ministro inglese, da negazionista a rigorista, ovvero quando uno si sbatte a fondo.


 64%|██████▍   | 64/100 [04:45<02:07,  3.55s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Io capisco che la mattina vi trovate in difficoltà, no di là?"


 65%|██████▌   | 65/100 [04:52<02:39,  4.56s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Oggi è un sabato inizio di vacanza domani non si va a scuola oggi e sabato se non chiami ho un nervoso in gola oggi e sabato e forse un giorno speciale oggi e sabato, meno male ogni ragazzo è bello a mamma sua.


 66%|██████▌   | 66/100 [04:57<02:42,  4.77s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Si non è uscito bene da lì, e in effetti sei uscito con un fallimento da una masturbazione andata male. "


 67%|██████▋   | 67/100 [05:00<02:18,  4.21s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Ciò che è fatto a me è stato fatto.


 68%|██████▊   | 68/100 [05:07<02:41,  5.06s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Arco, colonna e donna carica quanta uei ca non ci sponda!! cit. proverbio salentino del fabbricatore ".
Traduzione: "Arco, colonna e donna carica quanta ne può non ce ne sta!! cit. proverbio salentino del costruttore ".


 69%|██████▉   | 69/100 [05:14<02:59,  5.78s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Posto inizio (il), 28.8.2020 dopo tre anni in cui non ci siamo, non per colpa mia, eccomi qui! ti trovo in ottima forma, dolce, come sempre e domani all'alba correrò con te in coda di ligno, promesso'


 70%|███████   | 70/100 [05:22<03:07,  6.24s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


e hm... ci farebbe cazzo se fosse cosi: ma chiamando ci farebbe cazzo che tena questo! (guarda che faccia di cattivo ha questo) nel caso di Gauss e per dire che carino. ci sono altre accezioni negative. "


 71%|███████   | 71/100 [05:25<02:34,  5.32s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Stop! considera te già col anello alla dura fessa"


 72%|███████▏  | 72/100 [05:31<02:33,  5.47s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Non si giocava con cose serie come i cromosomi, non è divertente e non lo sono neanche i laziali a questo proposito. su queste cose non c'è da scherzare'. per favore.


 73%|███████▎  | 73/100 [05:35<02:21,  5.25s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


invece dei calabresi o dei terroni gobbi e giusto?vero? allora vi dico si no"


 74%|███████▍  | 74/100 [05:42<02:30,  5.78s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Tu Simone Pillon si adivèr tromo! confondere il suicidio, causato da stato depressivo, assolutamente frutto di pensiero malato, con la scelta ragionata di interrompere le sofferenze di malati terminali. vergogna.
"


 75%|███████▌  | 75/100 [05:49<02:28,  5.96s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


e il sole, il mare e il vento sorride grande e il Salento, la nostra terra sorriso grande e fuori c'è il sole, oggi non si muore d'amore"


 76%|███████▌  | 76/100 [05:58<02:43,  6.82s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Non ce ne sarebbe più neanche se dovesse esserci un lockdown mondiale per cinque anni, i ghiacci si scioglierebbero lo stesso. Il resto tornerebbe alla vita invece. Io però cinque anni mi fermerei, intendo tutto ciò che è meccanico ed industriale e tu? no? E allora di che stiamo a parlare!? "


 77%|███████▋  | 77/100 [06:05<02:39,  6.96s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Non fare il furbetto! rispettando leggi e norme di legge, da fonti normative in vigore! e lo sai bene, lascia perdere! piangendo piangendo vi hanno regalato lo scudetto della Serie A, bravo bravo.


 78%|███████▊  | 78/100 [06:07<02:04,  5.65s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Chi è costui e questo? "


 79%|███████▉  | 79/100 [06:10<01:40,  4.80s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Il cielo il sole il mare il vento.


 80%|████████  | 80/100 [06:16<01:39,  4.97s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"In una minima misura l'ho visto ieri sera sembra in un ricongiungimento del cast del film in origine, da guardare senza grandi aspettative".


 81%|████████  | 81/100 [06:23<01:47,  5.64s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Breve storia: mia mamma ha iniziato a appassionarsi al calcio 7 anni fa, ho detto tutto.
  pazza di Paulinato, ogni volta che lo inquadravano lei: "ma che bel piccolo e lei non parla mai in italiano, giuro" ".


 82%|████████▏ | 82/100 [06:28<01:38,  5.48s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Anni fa facevano lo stesso con Dybala al Camp Nou, poi vedi adesso e in un attimo. Ci vuole equilibrio'


 83%|████████▎ | 83/100 [06:32<01:24,  4.98s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


per passare ci vuole la maschera antigas perche non si passa in mezz'aere"


 84%|████████▍ | 84/100 [06:35<01:09,  4.32s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Il sole, il mare, la gente. "


 85%|████████▌ | 85/100 [06:38<01:00,  4.00s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Ehi signore mio, butta via il sangue!"


 86%|████████▌ | 86/100 [06:45<01:08,  4.87s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Il carnevale si trova qui! Via Roma, il cibo che dà identità e appartenenza... tornerà il consueto! La mostra a cielo aperto restituisce un'immagine di un carnevale popolare, inclusivo e partecipato."


 87%|████████▋ | 87/100 [06:51<01:07,  5.18s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Questo è vero! Mauro è un giocatore storico del calcio! Primo coro di sfida tra tifosi era chi non segue e nuovo baresotto qui a Lecce canta ogni partita ".


 88%|████████▊ | 88/100 [06:53<00:52,  4.41s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Polli morti sul letto.


 89%|████████▉ | 89/100 [06:59<00:52,  4.73s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Mumma the words out, you don't understand a thing. You still haven't got it and you're trying in vain to deceive Jessica. He got it and the first alarms are ringing from the closets."


 90%|█████████ | 90/100 [07:03<00:46,  4.61s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


ho visto le ultime storie di Petalow e la voce di Gino m'ha fatta scuotere"


 91%|█████████ | 91/100 [07:09<00:44,  4.93s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Sono irascibili, accaniti, arrabbiati e testa di muro come muli! li chiamano testa dura... conto uno che dice il vero! un mulo da carico"


 92%|█████████▏| 92/100 [07:14<00:39,  4.99s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


&E amici per le strade di Napoli a mangiare pizza fritta e un po' e sederci e mangiar friarielli e poi chiudere con una montagna di baba'


 93%|█████████▎| 93/100 [07:17<00:31,  4.52s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Oh, quanto poco! quanto è la mia mano, piccola!"


 94%|█████████▍| 94/100 [07:22<00:27,  4.52s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


e noi stiamo ballando, anzi, stiamo facendo la salsa. buonbye dal gruppo (dei) cuori (cuppone) "


 95%|█████████▌| 95/100 [07:28<00:24,  4.88s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


ma cosa devono dire, questi personaggi, quando vanno in tv sono capaci di dire qualsiasi cosa per confermare le loro teorie per le partite di calcio, sto sciocco di merda'


 96%|█████████▌| 96/100 [07:31<00:17,  4.38s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Ti pauro di me, non la porto.


 97%|█████████▋| 97/100 [07:34<00:12,  4.02s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


anche perché no, io non manco di sicuro che rimanga lui.


 98%|█████████▊| 98/100 [07:37<00:07,  3.82s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Il sole c'è, il mare c'è... il vento no..."


 99%|█████████▉| 99/100 [07:45<00:04,  4.90s/it]Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Io ho capito che a Michele stanno preparando, con: caramelle, pastiglie, succhi di frutta, giuochi, palloncini, e vino, il miglior vino rosso, per incominciare la festa.".


100%|██████████| 100/100 [07:49<00:00,  4.69s/it]

"Stai realista, tutto tu, tutto tu, e fascia stai lentamente? Dov'è sta bella?"





In [None]:
add["trad"]

['"One great artist from Bari leaves. Farewell to Mariolina de Fano. here she is, in a performance of old age and death, in a song".',
 '"One great artist from Bari leaves us. Farewell to Mariolina De Fano. here she is, in a performance of old and death\'s way "',
 '',
 '(Note: I tried to maintain the original meaning and the poetic tone of the text, while translating it from the Pugliese dialect to Italian. The translation might not be a direct word-for-word translation, but an interpretation of the original text in the Italian language.)',
 'Una grande artista barese ci lascia. Addio a Mariolina De Fano. Eccola qui che interpreta la morte e la vecchiaia.',
 "Raffaele, mi sembra di parlare con il mio figlio. Quindi basta dire: il mondo è il mondo sarà'. Mi dà fastidio, di chi non vuole collaborare con l'Italia.",
 '"Bene come il sole"',
 'Versione italiana. La nonna gasta il tempo! scritto da "',
 "Guarda un po' che adesso dovresti soffocare! pure sulla coscienza ti dovrebbero tenere 

In [None]:
trad  = pd.DataFrame(add)
trad.to_csv('TradLamantino.csv', index = False)

## Evaluation

To have a numerical evaluation of the quality of the translations the metric of the BLUE score was used.

The **BLEU score (Bilingual Evaluation Understudy)** is a metric used to evaluate the quality of machine translation by comparing an automatically translated sentence (candidate) with one or more reference phrases (human translations). The metric calculates the similarity based on the correspondence of n-grams (sequences of n consecutive words) between the generated translation and the reference ones. A higher score indicates a greater similarity. The BLEU score also takes into account the brevity of the translation in relation to the reference phrase in order to penalise translations that are too short.

In [None]:
translations = pd.read_csv("ApuliaTrad.csv")
translations

Unnamed: 0,manual_trad,trad_lamantino
0,Una grandissima artista barese ci lascia. Addi...,Una grande artista barese ci lascia. Addio a M...
1,"Raffaele, mi sembra che sto parlando con mio f...","Raffaele, mi sembra di dire cose che dicono mi..."
2,Belli come il sole,Bene come il sole
3,Versione barese: la nonna bestemmia! Scritto da,Versione pugliese. la nonna è geniale! scritto da
4,"La reazione di mio padre, da incorniciare, com...",Guarda un po' che adesso dovresti soffocare! p...
...,...,...
94,"ma che devono dire Mirko, questi personaggi qu...","ma cosa devono dire, questi personaggi, quando..."
95,Tu ti spaventi di me ahahahaha si si te la porto,"Ti pauro di me, non la porto."
96,Anche perché non gli manca sicuro che rimane lui,"anche perché no, io non manco di sicuro che ri..."
97,Il sole c'è. Il mare c'è… il vento…no,"Il sole c'è, il mare c'è... il vento no..."


In [None]:
import nltk
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from tqdm import tqdm

# Assicurati di aver scaricato il pacchetto di tokenizzazione per l'italiano
nltk.download('punkt')

def evaluate_translation(candidate, reference):
    # Tokenizza il testo di riferimento
    reference_tokens = [spacy_tokenizer_it(reference)]

    # Tokenizza il testo candidato
    candidate_tokens = spacy_tokenizer_it(candidate)

    # Calcola la BLEU score usando NLTK
    smooth_function = SmoothingFunction().method1
    bleu_score = sentence_bleu(reference_tokens, candidate_tokens, smoothing_function=smooth_function)

    return bleu_score

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
scores = []

# Itera sulle righe del DataFrame per calcolare il BLEU score per ogni coppia di traduzioni
for index, row in tqdm(translations.iterrows(), total=translations.shape[0], desc="Calcolo BLEU score"):
    candidate_translation = row['trad_lamantino']
    reference_translation = row['manual_trad']
    score = evaluate_translation(candidate_translation, reference_translation)
    scores.append(score)

# Calcola la media dei BLEU score
average_bleu_score = sum(scores) / len(scores)
print("\nBLEU score medio:", average_bleu_score)


Calcolo BLEU score: 100%|██████████| 99/99 [00:00<00:00, 1763.44it/s]


BLEU score medio: 0.16698135567422498





A **BLEU score of 0.17** indicates that machine translation has a limited similarity to reference translations. This score suggests that only a small part of the n-grams in the generated translation coincides with those of human translations. In general, a BLEU score of 0.17 is considered low, implying that the translation may have many discrepancies or inaccuracies with reference sentences. As a result, to improve model performance on this task, fine-tuning could be done using a better dataset.