# Converter di Formati da Relazionali a Non-Relazionali


## Libraries

In [1]:
import pandas as pd
import json
import os
import xml.etree.ElementTree as ET
from bson import ObjectId
import random
from datetime import datetime

## Sampling

#### E' stato applicato per velocizzare l'algoritmo per fare sampling di alcuni elementi, ci si aspetterà nella struttura dati che tutti vengano salvati. Di seguito la definizione del metodo che lo fa, impostando una lunghezza massima di righe. N_sample è il numero righe che voglio prendere

In [2]:
def random_sampling(max_len, n_sample):
    random.seed(46)
    # Verifica che il numero di righe di cui fare sample non sia superiore al numero massimo effettivo di righe
    actual_n_sample = n_sample
    if (n_sample > max_len):
        actual_n_sample = max_len  
    row_list = []
    for i in range(0,10):
        if (i >= actual_n_sample):
            break
        row_list.append(i)
    if ( actual_n_sample - 10 > 0):
        row_list += random.sample(range(10, max_len), actual_n_sample-10)
    #print(row_list)
    
    return row_list

In [3]:
def extract(file_path, n_sample): 
    data = None
    nrow = 0
    root, extension = os.path.splitext(file_path)
    new_sample = None
    try:
        if (extension == '.csv'):
            data = pd.read_csv(file_path, encoding='latin1')
            
            
            new_sample = sample(data, n_sample)
            nrow = len(data)  
            #conversione da effettuare SE json ha problemi con colonne timestamp  
            #for col in new_sample.columns:
            #    if (pd.api.types.is_datetime64_any_dtype(new_sample[col])):
            #        new_sample[col] = new_sample[col].astype(str)
        elif (extension == '.xlsx'):
            data = pd.read_excel(file_path) 
            #conversione da effettuare perchè json ha problemi con colonne timestam                
            new_sample = sample(data, n_sample)  
            nrow = len(data)   
            #for col in new_sample.columns:
            #    if (pd.api.types.is_datetime64_any_dtype(new_sample[col])):
            #        new_sample[col] = new_sample[col].astype(str)
        #Prendo prime 30 colonne
        new_sample = new_sample.iloc[:, :30]
        #Gestione valori Nan nei dataset
        #1. Colonne con la maggioranza di valori nan, li toglo
        new_sample = new_sample.dropna(axis=1, thresh=len(new_sample) * 0.6)  # Rimuove colonne con più dell'60% di NaN
        #2. Ora, tolgo eventuali righe che contengono nan (per qualsiasi colonna) e resetto gli indici
        new_sample = new_sample.dropna().reset_index(drop=True) 

    except Exception as e: #se ha problemi a leggere file tabulari sbagliati
        data = None
        # Ignora l'eccezione e continua senza stampare l'errore
        pass


    return new_sample, nrow
        
def sample(data, n_sample):
    row_sampled = random_sampling(len(data),n_sample)
    sample_data = data.loc[row_sampled]
    return sample_data
    


## Rilevazione Tipi di Variabili


#### Rileva la tipologia di variabile classificandomela in: numerica, categorica (codificabile con stringhe o numeri in un insieme discreto), testuale, con date

In [4]:
import locale
locale.setlocale(locale.LC_NUMERIC, 'it_IT.utf-8')  # Adatta la localizzazione al tuo ambiente

#Check caso in cui ho numeri messi in stringhe
def is_numeric_variable(values):
    cvalues = str(values)
    locale.setlocale(locale.LC_NUMERIC, 'it_IT.utf-8') 

    def is_numeric(value):
        try:
            standardized_value = locale.atof(value)
            return isinstance(standardized_value, (int, float))
        except ValueError:
            return False

    return all(map(is_numeric, cvalues))
        
#Check presenza date
def is_valid_date(date_string):
    date_formats = ['%Y-%m-%d', '%d-%m-%Y', '%m-%d-%Y', '%Y-%d-%m','%m-%Y','%Y-%m',
                    '%Y/%m/%d', '%d/%m/%Y', '%m/%d/%Y', '%Y/%d/%m', '%m/%Y', '%Y/%m',
                   '%H:%M', '%H:%M:%S', '%m/%d/%Y %H:%M:%S']
    valid = False
    correct_format = None
    for date in date_formats:
        try:
            # Prova a convertire la stringa in un oggetto datetime
            datetime.strptime(date_string, date)
            valid = True
            correct_format = date
            break
        except ValueError:
            valid = False
            
    #if (valid == False):
        
    return valid, correct_format

#Rilevazione tipo variabile
def variable_type_detector(variable):
    vtype = ""
    #è numerica (tipo int, o stringhe che rappresentano numeri)
    if(pd.api.types.is_datetime64_any_dtype(variable)):
        vtype = 'datetime'
    elif(pd.api.types.is_numeric_dtype(variable) | is_numeric_variable(variable)):
        #conta ripetizioni di valori
        unique_counter = variable.nunique()
        repetition_percentage = unique_counter/len(variable)
        #if (unique_counter <= max_counter):
        if (repetition_percentage < 0.7):
            vtype = "categorical numerical"
        else:
            vtype = "continuous numerical" 
    #è testuale
    else:
        #conta ripetizioni di valori
        unique_counter = variable.nunique()
        repetition_percentage = unique_counter/len(variable)
        #if (unique_counter <= max_counter):
        if (repetition_percentage < 0.7):
            vtype = "categorical textual"
            #guardo il primo elemento, e applico uno split delle prime 3 parole (con lo spazio),
            #verifico se almeno uno di questi è un data (alle volte ho data separata dall'ora)
            first_element = str(variable[0])
            for spl in first_element.split()[0:3]:
                if (is_valid_date(spl)[0]):
                    vtype = 'datetime'
        else:
            vtype = "text"
            #guardo il primo elemento, e applico uno split delle prime 3 parole (con lo spazio),
            #verifico se almeno uno di questi è un data (alle volte ho data separata dall'ora)
            first_element = str(variable[0])
            for spl in first_element.split()[0:3]:
                if (is_valid_date(spl)[0]):
                    vtype = 'datetime'
            
    return vtype
        

## Creazione Oggetto Json

In [5]:
#Creazone Json File
def create_file_node(file_name, sample_data, nrow):
    #default values
    file_elements = file_name.split(".")
    extension_type = "undefined"
    features = []
    n_features = 0
    
    if (file_elements[1] in ['csv', 'xlsx']):
        extension_type = "tabular"
        n_features = len(sample_data.columns)
        #controlla se è time stamp la feature, la converte in stringa, altrimenti json non va 
        
        features = [
        {
            "feature_name": str(col),
            "feature_datatype": sample_data[col].dtype.name,
            "feature_type": variable_type_detector(sample_data[col]),
            "elements_sampled": sample_data[col].tolist()
        }
        for col in sample_data.columns         
            
    ]   
    elif (file_elements[1] in ['jpg', 'png']):
        extension_type = "image"   
    
    
    new_file = {
        "file_name": file_elements[0],
        "file_extension": file_elements[1],
        "file_type": extension_type,
        "n_istances": nrow,
        "n_features": n_features,
        "features_names": sample_data.columns.tolist(),
        "features_content": features
    }
    return new_file

## Navigazione Cartelle

#### Può capitare che mi ritrovo con un solo file tabulare, come cartelle multiple. Per ora, la struttura a cartelle viene eliminata, estraendo solo alcuni files come campione e mettendoli in un vettore (per ridurre i tempi). L'approccio può essere cambiato, sia mantenendo la struttra ad albero, sia cambiando quanti files o cartelle estrarre

In [6]:
#Parametri da impostare per numero cartelle e numero files massimi da estrarre
max_subfolders = 5
max_files = 10

def navigate_folders(root, subfolders_limit, files_limit, new_dataset_node, subfolder_count=0):
#mi prende eventuali files, i primi 10
    if os.path.isdir(root):
        for current_root, dirs, files in os.walk(root):
            for file in files[0:files_limit]:
                file_path = os.path.join(current_root, file)
                #Numero righe da estrarre
                n_sample = 200
                result_sample = extract(file_path, n_sample)
                #print(result_sample)
                file_sample = result_sample[0]
                nrow = result_sample[1]
                if file_sample is not None:
                    #print(file_sample)
                    new_file = create_file_node(file, file_sample, nrow)
                    new_dataset_node["files"].append(new_file)
                    #print(file)

            #se c'è una sottocartella, "scava" ad albero, limitando il numero di sottocartelle da esaminare
            # Chiamata ricorsiva per le prime massime sottocartelle
            if subfolder_count >= subfolders_limit:
                break

            for subfolder in dirs:
                new_root = os.path.join(current_root, subfolder)
                subfolder_count = subfolder_count + 1
                navigate_folders(new_root, subfolders_limit, files_limit, new_dataset_node, subfolder_count)
                # Verifica se abbiamo raggiunto il limite delle sottocartelle
                if subfolder_count >= subfolders_limit:
                    break
    elif os.path.isfile(root):
        #file_path = os.path.join(root, file)
        n_sample = 200
        result_sample = extract(root, n_sample)
        #print(result_sample)
        file_sample = result_sample[0]
        nrow = result_sample[1]
        if file_sample is not None:
            new_file = create_file_node(os.path.basename(root), file_sample, nrow)
            new_dataset_node["files"].append(new_file)
        
            

## Main Training ()

#### Main() utilizzato come training con alcuni datasets scaricati da Kaggle, tutte le funzioni vengono messe insieme e viene già impostato un input e output di cartelle

In [7]:
def main_training():
    #Directory
    root_directory = 'kaggle_datasets'
    output_root_directory = 'datapoints'
    extensions = ['.csv', '.json', '.xlsx']
    directories = ['classification', 'clustering', 'nlp', 'regression', 'time_series']
    #files = [file for file in os.listdir(directory) if file.endswith(tuple(extensions))]

    # Json final
    datasets_json = {}
    # Converte ciascun file in un JSON
    for directory in directories:
        category = directory 
        directory_path = root_directory + "/" + directory
        #each folder is the name of the dataset
        datasets = [dataset for dataset in os.listdir(directory_path)]
        #in ciascuna cartella del dataset, posso aspettarmi di tutto, cartelle, files etc.. come faccio?
        #possibile soluzione: prendo alpiù 5 cartelle e alpiù 10 files, nelle cartelle scavo ad albero in 1-2 livelli massimi,
        #poi mi fermo e inserisco max 10 files nella struttura
        for dataset in datasets:
            dataset_path = root_directory + "/" + directory + "/" + dataset
            new_dataset_node = {"_id": dataset, "label": category, "files": []}
            navigate_folders(dataset_path, max_subfolders, max_files, new_dataset_node)
        
            json_data = json.dumps(new_dataset_node, indent=2, default=str)
            json_path = output_root_directory  + "/" + directory + "/"
            with open(json_path + dataset + ".json", "w") as json_file:          
                json_file.write(json_data)
        print(category + " done")
        

## Main()

#### Il main() vero e proprio, eseguito prendendo in input una path contenente i datasets o cartelle di datasets e vengono convertiti in oggetti json e messi in una cartella output. Di default, la categoria del dataset non ce l'ho, posso impostare di rilevarla se presente (devo salvare il dato)

In [10]:
def main(datasets_path, output_path):
    #each folder is the name of the dataset
    elements = [element for element in os.listdir(datasets_path)]
    #in ciascuna cartella del dataset, posso aspettarmi di tutto, cartelle, files etc.. come faccio?
    #possibile soluzione: prendo alpiù 5 cartelle e alpiù 10 files, nelle cartelle scavo ad albero in 1-2 livelli massimi,
    #poi mi fermo e inserisco max 10 files nella struttura
    for element in elements:
        new_dataset_node = {"_id": os.path.splitext(element)[0], "label": 'classification', "files": []}
        navigate_folders(datasets_path+'/'+element, 5, 10, new_dataset_node)
        json_data = json.dumps(new_dataset_node, indent=2, default=str)
        json_path = output_path
        with open(json_path + '/' + os.path.splitext(element)[0] + ".json", "w") as json_file:          
            json_file.write(json_data)
    

In [11]:
main('input_datasets', 'output_datasets')

### Sistemazioni Future
#### - Gestire altre estensioni oltre che csv, excel?
#### - Convertire subito se è numerica ma formato stringa..
#### - json.dumps con default str, però magari la variabile timestamp da tenere il tipo di dato
#### - le eccezioni come gestirle? per ora passo, potrei cambiare encoding mentre non riesce a fare read csv o excel
#### - Possibile errore: nella rilevazione dei tipi di variabili, alle volte mette numerica categorica anche se non lo è con pochi sample, vedi bachelors-or-higher-degree-data-of-usa in time_series

### Altre note sui Formati di dataset possibili

In [None]:
## CONVERSIONE DI FORMATI ##

#FASI
#1. LETTURA estensione
#2. TRADUZIONE in JSON


#FORMATI DATASET (fonte: https://docs.italia.it/AgID/documenti-in-consultazione/lg-opendata-docs/it/bozza/allegato-b-standard-di-riferimento-e-formati-aperti.html)

#!! PRINCIPALI !!
##Formati aperti per i dati
#CSV (Comma Separated Values)
#JSON (JavaScript Object Notation)
#XML (eXtensible Markup Language)
#XLSX (Excel)
#!!


##Formati aperti più diffusi per i dati geografici
#Shapefile
#KML
#GeoJSON
#GML (Geography Markup Language)
#GeoPackage

##Formati aperti per i documenti
#ODF (Open Document Format)
#PDF
#Akoma Ntoso

##Formati per dati meteorologici
#BUFR (Binary Universal Form for the Representation of meteorological data)
#NetCDF (Network Common Data Form)
#ASCII (American Standard Code for Information Interchange)
#Avvisi Meteo: 
#CAP (Common Alerting Protocol), RSS (Really Simple Syndication)/Atom
#Radar: 
#HDF5 (Hierarchical Data Format)
#Modello NWP (Numerical weather prediction): 
#GRIB (General Representation of fields In Binary)