In [25]:
import json

def load_student_data(data_path:str):
    errors = []
    data = set()
    with open(data_path) as f:
        for line in f:
            elem = json.loads(line)
            if len(elem['choices']) != 4:
                errors.append(elem)
                print(f"There are more/less than 4 choices found for: {elem}")
            data.add(elem['text'].strip())
    print(f"{len(errors)} errors.")
    return data

def load_original_data(data_path:str):
    data = set()
    with open(data_path, "r", encoding = 'utf-8') as fin:
        for line in fin:
            item = line.strip().replace('Concept', '').replace('Entity', '').strip('\t')
            data.add(item)
    return data

def check_data(orig, processed):
    a = orig.difference(processed)
    b = processed.difference(orig)
    assert len(a) == 0, f"{len(a)} entries in original data and not in processed: {a}" 
    assert len(b) == 0, f"{len(b)} entries in processed data and not in original: {b}" 

original_train_data = load_original_data('original_datasets/task-26-hypernym_discovery/training/data/1B.italian.training.data.txt')
original_test_data = load_original_data('original_datasets/task-26-hypernym_discovery/test/data/1B.italian.test.data.txt')

In [29]:
STUDENT_TRAIN_FILE = 'students_submissions/cakoni.1985088/HM1_A-1985088/task-26-hypernym_discovery/hypernym_discovery-train.jsonl'
STUDENT_TEST_FILE  = 'students_submissions/cakoni.1985088/HM1_A-1985088/task-26-hypernym_discovery/hypernym_discovery-test.jsonl'

In [30]:
# Train file
student_train_data = load_student_data(STUDENT_TRAIN_FILE)
check_data(original_train_data, student_train_data)

0 errors.


AssertionError: 255 entries in original data and not in processed: {'Colli Tortonesi Cortese', 'Gustavo Cisneros', 'Università di Stanford', 'caso nominativo', 'La torre nera', 'Tito Livio', 'futuro anteriore', 'Sus scrofa', 'Downing Street', 'Arthur Rimbaud', 'Oriente cristiano', 'Mungo Park', 'Enrico Berlinguer', 'stadio di baseball', 'provincia di Roma', 'Museo Barracco', 'Silvio Micali', 'Antonio Palomba', 'Quarto potere', 'sostegno economico', 'carta moneta', 'San Donato', 'Monte Bondone', 'Enza Rossano', 'Attilio Veraldi', 'Il Cairo', 'erosione della costa', 'Il risveglio', 'discorso diretto', 'Mario Piantelli', 'Romano Prodi', 'educazione fisica', 'Luca Desiato', 'vitamina C', 'Mark Kozelek', 'Laura Brown', 'Gianluigi Buffon', 'Witold Gombrowicz', 'eruzione vulcanica', 'Mario Bianchi', 'verde giada', 'Oceano Atlantico', 'Hans Arp', 'Cristiano Ronaldo', 'Sacre Scritture', 'Paolo Veronese', 'asso di picche', 'John Maeda', 'Dean Acheson', 'porta parallela', 'Tim Burton', 'James Watson', 'scala di sicurezza', 'scuola privata', 'Miseria della filosofia', 'America latina', 'dispositivo di sicurezza', 'Il padre', 'Roberto Baggio', 'punto mediano', 'Indirizzo permanente', 'kit di attrezzi', 'stazione ferroviaria', 'Carlo Pisacane', 'Zora la vampira', 'porticciolo turistico', 'croce gammata', 'equazione differenziale', 'mal tempo', 'orologio atomico', 'Massa Martana', 'Riccardo Ruggiero', 'Jamie Kennedy', 'coniglio selvatico', 'Don Gibson', 'Renata Tebaldi', 'Alex Hofmann', 'valutazione scolastica', 'Richard Rorty', 'cavallo di troia', 'Gesù Bambino', 'equazione di Bernoulli', 'carrozza postale', 'Giudizio finale', 'Marcel Duchamp', 'Medical Center', 'carta di credito', 'Daisy Bates', 'Noam Chomsky', 'Enrico Maggi', 'campione rappresentativo', 'Robert M. Bowman', 'Woody Allen', 'Tom Stoppard', 'Mike Myers', 'capacità termica', 'teologia cristiana', 'William Fichtner', 'sterlina britannica', 'John Donne', 'occupazione militare', 'Silvio Berlusconi', 'Ford Escort', 'giorno delle elezioni', 'Christian Vieri', 'pirata informatico', 'tettonica a zolle', 'Patatine fritte', 'Università della Calabria', 'Show Business', 'compito a casa', 'Mordecai Richler', 'Teresa Villaverde', 'Ralf Schumacher', 'imposta di successione', 'previsioni del tempo', 'Giulio Andreotti', 'Orietta Berti', 'Jacques Chirac', 'non senso', 'Lorenzo Celsi', 'Mario Bettini', 'Sete di sangue', 'Charles Péguy', 'scarpa da ginnastica', 'Franklin D. Roosevelt', 'Francesco Cossiga', 'mosca bianca', 'cavalieri templari', 'La Rocca', 'Furio Colombo', 'Neil Young', 'Gruppo Locale', 'produttore cinematografico', 'Roy Lichtenstein', 'cavolo rapa', 'John Vincent', 'Castelletto Molina', 'animale da macello', 'insalata di cavolo', 'Renzo Arbore', 'sterlina irlandese', 'topo muschiato', 'Marvin Olasky', 'Charles Boyer', 'Renato Guttuso', 'Pall Mall', 'Passo della Mauria', 'Luigi Berlinguer', 'anno sabbatico', 'idrossido di alluminio', 'nord magnetico', 'Enrico Montanari', 'ministro delle finanze', 'Tito Maccio Plauto', 'Jean Harlow', 'busta paga', 'parte civile', 'mitologia greco-romana', 'chiave inglese', 'Storm Front', 'Zhang Ziyi', 'Harriet Beecher Stowe', 'nana nera', 'Carlo Bertotti', 'Georges Brassens', 'permesso di soggiorno', 'Celenza Valfortore', 'Isole Eolie', 'accademia militare', 'mezzo sangue', 'Michael Faraday', 'Boz Scaggs', 'Franklin Pierce', 'costo medio', 'slot machine', 'Daniele Capezzone', 'ballo studentesco', 'livello del mare', 'segreteria telefonica', 'Luci della ribalta', 'Ralph Waldo Emerson', 'Gran Via', 'Louis-Philippe Dalembert', 'fondo pensione', 'Gigi Proietti', 'basso latino', 'Francesco Zambon', 'Rania di Giordania', 'Happy Hour', 'braccio destro', 'turismo responsabile', 'Jacques Dubois', 'Vicino Oriente', 'Sylvano Bussotti', 'Val Vomano', 'persona di servizio', 'Jim Thorpe', 'Discovery Channel', 'spazio libero', 'Ezra Pound', 'Oceano Artico', 'Ministero delle Finanze', 'azzurro chiaro', 'Harold Pinter', 'Mayumi Iizuka', 'scuola di danza', 'distributore automatico', 'carne equina', 'Federico Mompou', 'Victoria Abril', 'rana toro', 'Giorgio Chiellini', 'Riccardo Bauer', 'cigno femmina', 'zona disastrata', 'Arthur Brown', 'sito web', 'Eugène Sue', 'Lorenzo Minotti', 'San Giovanni Evangelista', 'Pupi Avati', 'casella postale', 'David Bowe', 'Elio Germano', 'Palma Soriano', 'Leri Cavour', 'funicolo ombelicale', 'Nokia 3220', 'tassa scolastica', 'Sirius Black', 'David Klein', 'Olive Thomas', 'Circolo vizioso', 'Antonio Berardi', 'Alfred Hitchcock', 'Stefano Sartori', 'linea di demarcazione', 'Eduard Buchner', 'Felice Baciocchi', 'dottore di ricerca', 'Vuoto di luna', 'Federico Fellini', 'Vittorio Saltini', 'Michele da Cesena', 'Grande depressione', 'Angelika Kauffmann', 'Maria Antonietta', 'disco rigido', 'John Cromwell', 'Padre nostro', 'gioielli della Corona', 'Andrea Ghetti', 'William Walton', 'divo del cinema'}

In [31]:
# Test file
student_test_data = load_student_data(STUDENT_TEST_FILE)
check_data(original_test_data, student_test_data)

0 errors.


AssertionError: 204 entries in original data and not in processed: {'giorno lavorativo', 'tour de force', 'Ponte Vecchio', 'Tropico del Capricorno', 'Lancia Y', 'Giovanni della Croce', 'word processor', 'salamandra pezzata', 'museo scientifico', 'Mario Lavezzi', 'assistente sociale', 'Ugo La Malfa', 'San Biagio', 'Robert Bruce', 'Partito Comunista Italiano', 'Paolo Conte', 'Led Zeppelin', 'Margherita Hack', 'Carlo Maria Martini', 'Red Hat', 'Cascate del Niagara', 'Federazione Russa', 'lingua friulana', 'costume da bagno', 'vapore acqueo', 'esame del DNA', 'Il giudizio', 'campionato mondiale', 'Piazza di Spagna', 'Mar Mediterraneo', 'Marco Travaglio', 'Francesco Totti', 'Oliviero Toscani', 'Max Biaggi', 'anniversario di matrimonio', 'client di posta', 'Alto Commissario', 'croce di Malta', 'corona svedese', 'Santa Rita', 'The Simpsons', 'circuito stampato', 'Cesare Pavese', 'la minore', 'Il Messaggero', 'Don Chisciotte', 'Fassa Bortolo', 'letto matrimoniale', 'Cesare Battisti', 'Il vento', 'mercato del lavoro', 'Times New Roman', 'Lincoln Memorial', 'Piazza Umberto I', 'mercato dei titoli', 'Partito Liberale', 'scuola elementare', 'Emily Dickinson', 'Gran Bretagna', 'ministro degli interni', 'Lamberto Dini', 'Giacomo Puccini', 'Pietro Nenni', 'tour operator', 'Carlo Giovanardi', 'tiro a segno', 'Niente paura', 'strada maestra', 'Agenzia delle Entrate', 'scuola di specializzazione', 'radiazione solare', 'energia potenziale', 'Il sogno', 'La cosa', 'Canale di Panamá', 'François Truffaut', 'passato prossimo', 'Porto Cervo', 'Julia Roberts', 'Giancarlo Galan', 'comandante in capo', 'Serie B', 'foresta pluviale', 'Mare del Nord', 'Mar del Nord', 'apparecchio ortodontico', 'mercato borsistico', 'albero a camme', 'Lance Armstrong', 'Santa Sede', 'istituto di emissione', 'lettera di cambio', 'telefono cellulare', 'Galileo Ferraris', 'Leonardo Domenici', 'centrale nucleare', 'San Vitale', 'realtà virtuale', 'James Stewart', 'Gianni Letta', 'progetto pilota', 'squadra volante', 'Casola Valsenio', 'John Ford', 'campo sportivo', 'Martin Mystère', 'Vandana Shiva', 'industria petrolifera', 'Kurt Vonnegut', 'dollaro americano', 'Il lupo', 'Oceano Pacifico', 'elezione diretta', 'Il fiume', 'lingua parlata', 'Alex Zanotelli', 'Asia Minore', 'mar Egeo', 'Britney Spears', 'casa a schiera', 'Libro dei Giudici', 'passera scopaiola', 'star del cinema', 'Chicago Bulls', 'diritto di passaggio', 'Michelle Pfeiffer', 'Re Sole', 'Paolo Bonolis', 'Il giocatore', 'morbo di Parkinson', 'falco di palude', 'William Shakespeare', 'vigili del fuoco', 'unità di tempo', 'British Medical Journal', 'studio legale', 'sequestro di persona', 'lana di vetro', 'Google Maps', 'spargimento di sangue', 'San Vito', 'New Jersey', 'pensione di invalidità', 'gara di velocità', 'Emma Bonino', 'Franco Angeli', 'torre Eiffel', 'ufficio di collocamento', 'Santo Stefano', 'Ernest Rutherford', 'televisione via cavo', 'azienda pubblica', 'Alfredo il Grande', 'Palazzo di Giustizia', 'Sin City', 'atto costitutivo', 'Isole Aleutine', 'Adriano Olivetti', 'pompa da bicicletta', 'antica Grecia', 'Moira Shearer', 'Lo specchio', 'rublo russo', 'Pax Christi', 'Emanuele Filiberto', 'rete elettrica', 'Il muro', 'Paolo Costa', 'fuga di notizie', 'chiave musicale', 'Prodotto interno lordo', 'Elettra Deiana', 'Egidio Banti', 'cranio umano', 'età moderna', 'Un uomo', 'Ariel Sharon', 'Riccardo Magherini', 'papillomavirus umano', 'agenzia di viaggi', 'Mark Twain', 'Santa Maria', 'Università del Wisconsin-Madison', 'palla da rugby', 'lago Trasimeno', 'Rai 1', 'Gengis Khan', 'assegno a vuoto', 'punto di vista', 'spazio vitale', 'acqua marina', 'Peter Pan', 'Martin Scorsese', 'San Severo', 'fisica moderna', 'guerra totale', 'Guerra fredda', 'Etty Hillesum', 'Marciana Marina', 'vescicola seminale', 'Oliver Stone', 'Bill Gates', 'Lonate Pozzolo', 'Lamezia Terme'}