# From xlsx to csv

In [1]:
import pandas as pd

In [2]:
def xlsx_to_csv(filename:str, columns:list, output_filename:str, output_columns:list):
    xlsx = pd.ExcelFile(filename)
    sheets= []
    for sheet in xlsx.sheet_names:
        df = pd.read_excel(xlsx, sheet, usecols=columns)
        sheets.append(df)
    df = pd.concat(sheets)
    df.columns = output_columns
    print('numero stralci: ' + str(len(df.index)))
    df.to_csv (output_filename, index = False, header=True )

In [3]:
#Hyperion dataset
filename = '../data/Original/Hyperion.xlsx'
columns = ['DOMANDA', 'TESTO', 'STRALCIO', 'DENOMINAZIONE']
output = '../data/Original_csv/Hyperion.csv'
output_columns = ['Domanda', 'Testo', 'Stralcio', 'Repertorio']

xlsx_to_csv(filename, columns, output, output_columns)

numero stralci: 35474


In [4]:
#2.1 dataset
filename = '../data/Original/2.1.xlsx'
columns = ['DOMANDA', 'TESTO', 'STRALCIO', 'DENOMINAZIONE']
output = '../data/Original_csv/2.1.csv'
output_columns = ['Domanda', 'Testo', 'Stralcio', 'Repertorio']

xlsx_to_csv(filename, columns, output, output_columns)

numero stralci: 13061


In [5]:
#3.0 dataset
filename = '../data/Original/3.0.xlsx'
columns = ['DOMANDA', 'TESTO', 'STRALCIO', 'DENOMINAZIONE']
output = '../data/Original_csv/3.0.csv'
output_columns = ['Domanda', 'Testo', 'Stralcio', 'Repertorio']

xlsx_to_csv(filename, columns, output, output_columns)

numero stralci: 1506


In [6]:
#S&D dataset SENIOR DENOMINATION
filename = '../data/Original/S&D.xlsx'
columns = ['TESTO DELLA DOMANDA', 'TESTO', 
            'DIVISIONE STRALCI SENIOR', 'DENOMINAZIONE SENIOR']
output = '../data/Original_csv/S&D_senior.csv'
output_columns = ['Domanda', 'Testo', 'Stralcio', 'Repertorio']

xlsx_to_csv(filename, columns, output, output_columns)

numero stralci: 7848


In [7]:
#S&D dataset JUNIOR DENOMINATION
filename = '../data/Original/S&D.xlsx'
columns = ['TESTO DELLA DOMANDA', 'TESTO', 
            'DIVISIONE STRALCIO JUNIOR', 'DENOMINAZIONE JUNIOR']
output = '../data/Original_csv/S&D_junior.csv'
output_columns = ['Domanda', 'Testo', 'Stralcio', 'Repertorio']

xlsx_to_csv(filename, columns, output, output_columns)

numero stralci: 7848


# Full dataset generation
With full dataset I mean the replication of the questions and texts for each empty cell

In [16]:
def fill_null_features(df):
    for c in ['Domanda','Testo']:
        for i in range(0,len(df.index)):  
            if not df[c][i]:
                j=i
                while j>0: 
                    j-=1
                    if df[c][j]:
                        df[c][i] = df[c][j]
                        break
    return df

def copy_text(df):
    for i in range(0,len(df.index)):  
            if not df['Stralcio'][i]:
                df['Stralcio'][i] = df['Testo'][i]
    return df


In [9]:
#Hyperion dataset
df = pd.read_csv('../data/Original_csv/Hyperion.csv', na_filter=False)
df = fill_null_features(df)

print('Numero stralci: ' + str(len(df.index)))
filter = df["Stralcio"] != ""
df = df[filter]
filter = df["Repertorio"] != ""
df = df[filter]
print('Numero stralci dopo eliminazione: ' + str(len(df.index)))

df.to_csv('../data/Original_csv_full/Hyperion_full.csv', index = False, header=True)

Numero stralci: 35474
Numero stralci dopo eliminazione: 35148


In [10]:
#2.1 dataset
df = pd.read_csv('../data/Original_csv/2.1.csv', na_filter=False)
df = fill_null_features(df)

print('Numero stralci: ' + str(len(df.index)))
filter = df["Stralcio"] != ""
df = df[filter]
filter = df["Repertorio"] != ""
df = df[filter]
print('Numero stralci dopo eliminazione: ' + str(len(df.index)))

df.to_csv('../data/Original_csv_full/2.1_full.csv', index = False, header=True)

Numero stralci: 13061
Numero stralci dopo eliminazione: 13057


In [12]:
#3.0 dataset
df = pd.read_csv('../data/Original_csv/3.0.csv', na_filter=False)
df = fill_null_features(df)

print('Numero stralci: ' + str(len(df.index)))
filter = df["Stralcio"] != ""
df = df[filter]
filter = df["Repertorio"] != ""
df = df[filter]
print('Numero stralci dopo eliminazione: ' + str(len(df.index)))

df.to_csv('../data/Original_csv_full/3.0_full.csv', index = False, header=True)

Numero stralci: 1506
Numero stralci dopo eliminazione: 1506


In [19]:
#S&D senior
df = pd.read_csv('../data/Original_csv/S&D_senior.csv', na_filter=False)
df = fill_null_features(df)
df = copy_text(df)

print('Numero stralci: ' + str(len(df.index)))
filter = df["Stralcio"] != ""
df = df[filter]
filter = df["Repertorio"] != ""
df = df[filter]
print('Numero stralci dopo eliminazione: ' + str(len(df.index)))

df.to_csv('../data/Original_csv_full/S&D_senior_full.csv', index = False, header=True)

Numero stralci: 7848
Numero stralci dopo eliminazione: 7845


In [14]:
#S&D junior
df = pd.read_csv('../data/Original_csv/S&D_junior.csv', na_filter=False)
df = fill_null_features(df)

print('Numero stralci: ' + str(len(df.index)))
filter = df["Stralcio"] != ""
df = df[filter]
filter = df["Repertorio"] != ""
df = df[filter]
print('Numero stralci dopo eliminazione: ' + str(len(df.index)))

df.to_csv('../data/Original_csv_full/S&D_junior_full.csv', index = False, header=True)

Numero stralci: 7848
Numero stralci dopo eliminazione: 7801
