In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os
import re
import glob
import pandas as pd
from natsort import natsorted
import unicodedata

### Variabili Globali

In [19]:
data_folder_in = 'drive/MyDrive/Traduzione_Dantesca/Dati_Dante/Dante_Transformer/'
data_folder_out = 'drive/MyDrive/Traduzione_Dantesca/Dati_Dante/Dante_Transformer/'

file_in = 'dataset_*.csv'

file_out = 'dataset_dantesco.csv'

In [20]:
def unicode_to_ascii(s):
    return ''.join(c for c in unicodedata.normalize('NFD', s) if unicodedata.category(c) != 'Mn')

def preprocess_sentence(w):
    '''
    Preprocessing dei testi di input, impostando tutti i caratteri
    minuscoli, aggiungendo uno spazio prima di ogni punto e sostituendo
    qualsiasi carattere con uno spazio se non è compreso nel seguente elenco:
    (a-z, A-Z, ".", "?", "!", ",")
    '''
    w = unicode_to_ascii(w.lower().strip())

    w = w.replace('..', '')
    
    return w

In [21]:
def verifica_correttezza(df):
  original = df['Original']
  translate = df['Translate']

  print(f'Esempi nel Dataset                 : {len(df)}')
  print(f'Frase più corta in Original        : {min(original, key = len)}')
  print(f'Frase più corta in Translate       : {min(translate, key = len)}')
  print(f'Frase più lunga in Original        : {max(original, key = len)}')
  print(f'Frase più lunga in Translate       : {max(translate, key = len)}')
  print('---------------------------------------------------------------------------------------')

In [22]:
df = pd.DataFrame(columns=['Original', 'Translate'])

filenamepath = os.path.abspath(os.path.join(data_folder_in, file_in))

for filename in natsorted(glob.glob(filenamepath)):
  df_filename = pd.read_csv(filename)
  
  print(filename)
  # Preprocessing dei dati di Input
  df_filename['Original'] = df_filename['Original'].apply(lambda x : preprocess_sentence(x))
  
  # Preprocessing dei dati Tradotti  
  df_filename['Translate'] = df_filename['Translate'].apply(lambda x : preprocess_sentence(x)).tolist()

  verifica_correttezza(df_filename)

  df = pd.concat([df, df_filename[['Original', 'Translate']]])

/content/drive/MyDrive/Traduzione_Dantesca/Dati_Dante/Dante_Transformer/dataset_convivio.csv
Esempi nel Dataset                 : 893
Frase più corta in Original        : l uno si chiama litterale, e questo   quello che  
Frase più corta in Translate       : quanto sopra   l esposizione letterale della prima parte del canzone.
Frase più lunga in Original        : e avegna che posti siano qui gradi generali, nondimeno si possono porre gradi singulari  cio  che quella riceve, dell anime umane, altrimenti una che un altra. e per  che  nel l ordine intellettuale dell universo si sale e discende per gradi quasi continui dalla infima forma all altissima  e dall altissima  alla infima, s  come vedemo nell ordine sensibile  e tra l angelica natura, che   cosa intellettuale, e l anima umana non sia grado alcuno, ma sia quasi l uno all altro continuo per li ordini delli gradi  e tra l anima umana e l anima pi  perfetta delli bruti animali ancor mezzo alcuno non sia  e noi veggiamo molti uomini t

In [23]:
df

Unnamed: 0,Original,Translate
0,s come dice lo filosofo nel principio della p...,come dice il filosofo all inizio della metafis...
1,veramente da questa nobilissima perfezione mol...,"molti, tuttavia, sono privati di questa perfez..."
2,dentro dall uomo possono essere due difetti e ...,ci sono due possibili deficienze o ostacoli in...
3,di fuori dall uomo possono essere similemente ...,allo stesso modo si possono specificare due ca...
4,"le due di queste cagioni, cio la prima dalla ...","due di queste cause, la prima in ciascuna dell..."
...,...,...
3240,"e si ne stava in si gran sospezone,",cosi grande era la sua preoccupazione
3241,che•lla sua giente tuttor vi veghiava.,che i suoi scagnozzi erano sempre di guardia.
3242,"bella coglienza ne tenne in pregione,","la gelosia ha tenuto fiera benvenuta in prigione,"
3243,"perch’ella punto in lei non si fidava,",perche non si fidava affatto di lei


In [25]:
df = df.dropna()
df = df.reset_index(drop=True)

filenamepath_out = os.path.abspath(os.path.join(data_folder_out, file_out))
df.to_csv(filenamepath_out, index=False, encoding='utf-8')