In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
!pip install gliner

Spacy+Gliner

In [10]:
import spacy
import pandas as pd
import requests
import json
from gliner import GLiNER
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import re

# Carica il modello spaCy (ad esempio, 'en_core_web_sm')
nlp = spacy.load("en_core_web_sm")
"""
# Funzione per interrogare DBpedia Spotlight
def query_dbpedia_spotlight(text, confidence=0.5, support=20):
    spotlight_endpoint = "https://api.dbpedia-spotlight.org/en/annotate"
    headers = {"accept": "application/json"}
    params = {"text": text, "confidence": confidence, "support": support}
    response = requests.get(spotlight_endpoint, headers=headers, params=params)
    if response.status_code == 200:
        return response.json()
    else:
        return {}
"""
# Funzione per interrogare DBpedia Spotlight
def query_dbpedia_spotlight(text, confidence=0.5, support=20):
    spotlight_endpoint = "https://api.dbpedia-spotlight.org/en/annotate"
    headers = {"accept": "application/json"}
    params = {"text": text, "confidence": confidence, "support": support}

    # Disable SSL certificate verification (use with caution!)
    response = requests.get(spotlight_endpoint, headers=headers, params=params, verify=False)

    if response.status_code == 200:
        return response.json()
    else:
        return {}

# Funzione per estrarre categorie da DBpedia Spotlight
def extract_categories_from_spotlight(response):
    categories = {}
    if "Resources" in response:
        for resource in response["Resources"]:
            category = resource["@types"].split(",")[-1].split(":")[-1]
            if category not in categories:
                categories[category] = []
            categories[category].append(resource["@surfaceForm"])
        categories = {k: list(set(v)) for k, v in categories.items()}
    return categories

# Funzione per consolidare le categorie
def consolidate_categories_automatically(categories, frequency_threshold=1, similarity_threshold=0.4):
    model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
    category_names = [cat for cat in categories.keys() if cat != '']
    category_frequencies = {category: len(entities) for category, entities in categories.items()}
    filtered_categories = {k: v for k, v in categories.items() if k != '' and category_frequencies[k] >= frequency_threshold}
    if not filtered_categories:
        return {}

    category_names = list(filtered_categories.keys())
    category_embeddings = model.encode(category_names)
    similarity_matrix = cosine_similarity(category_embeddings)
    consolidated_categories = {}

    for i, category in enumerate(category_names):
        merged = False
        for j, target_category in enumerate(consolidated_categories.keys()):
            if similarity_matrix[i][j] > similarity_threshold:
                consolidated_categories[target_category].extend(filtered_categories[category])
                merged = True
                break
        if not merged:
            consolidated_categories[category] = filtered_categories[category]

    consolidated_categories = {k: list(set(v)) for k, v in consolidated_categories.items()}
    return consolidated_categories

# Funzione per utilizzare GLiNER per l'estrazione delle entità
def extract_entities_with_gliner(text, categories_file="categories_1.json"):
    with open(categories_file, "r") as file:
        categories = json.load(file)
    labels = list(categories.keys())
    labels = [label for label in labels if label]  # Rimuove etichette vuote
    print(f"Etichette utilizzate per l'estrazione: {labels}")

    model = GLiNER.from_pretrained("urchade/gliner_medium")
    entities = model.predict_entities(text, labels, threshold=0.4)

    extracted_entities = []
    for entity in entities:
        print(f"{entity['text']} => {entity['label']}")
        extracted_entities.append({"text": entity["text"], "label": entity["label"]})
    return extracted_entities

# Funzione per estrarre entità con spaCy
def extract_entities_with_spacy(text):
    doc = nlp(text)
    extracted_entities = []
    for ent in doc.ents:
        extracted_entities.append({"text": ent.text, "label": ent.label_})
    return extracted_entities

# Funzione per processare il dataset
def process_dataset(input_file, output_file, text_column="text"):
    df = pd.read_csv(input_file)
    all_results = []
    all_categories = {}  # Dizionario per accumulare tutte le categorie

    for index, row in df.iterrows():
        print(f"\nProcessing row {index + 1}/{len(df)}...")
        text = row[text_column]

        # Step 1: Interroga DBpedia Spotlight
        response = query_dbpedia_spotlight(text)

        # Step 2: Estrai e consolida le categorie
        categories = extract_categories_from_spotlight(response)
        consolidated_categories = consolidate_categories_automatically(categories)

        # Aggiorna il dizionario delle categorie
        for category, entities in consolidated_categories.items():
            if category not in all_categories:
                all_categories[category] = set()
            all_categories[category].update(entities)

        # Salva le categorie accumulate in categories_1.json
        save_categories_to_file(all_categories)

        # Step 3: Estrai entità con GLiNER
        extracted_entities = extract_entities_with_gliner(text)

        # Step 4: Estrai entità con spaCy
        spacy_entities = extract_entities_with_spacy(text)

        # Adatta il formato di output di spaCy a quello di GLiNER
        spacy_entities_adapted = []
        for entity in spacy_entities:
            spacy_entities_adapted.append({
                "text": entity["text"],
                "label": entity["label"]  # Utilizza 'label' come chiave per uniformità
            })

        # Confronta i risultati di GLiNER e spaCy (adattato)
        print("\nConfronto tra GLiNER e spaCy:")
        print("Entità estratte da GLiNER:", extracted_entities)
        print("Entità estratte da spaCy (adattato):", spacy_entities_adapted)

        # Salva i risultati per ogni riga (inclusi i risultati di spaCy)
        all_results.append({
            "id": row["id"],
            "text": text,
            "entities_gliner": extracted_entities,
            "entities_spacy": spacy_entities_adapted  # Aggiungi i risultati di spaCy
        })

# Salva tutti i risultati in un file JSON
    with open(output_file, "w") as file:
        json.dump(all_results, file, indent=4)
    print(f"File '{output_file}' creato con successo!")

def save_categories_to_file(categories, output_file="categories_1.json"):
    # Converti i set in liste per la serializzazione JSON
    categories_to_save = {k: list(v) for k, v in categories.items()}

    # Sovrascrivi il file con le categorie aggiornate
    with open(output_file, "w") as file:
        json.dump(categories_to_save, file, indent=4)
    print(f"Categorie salvate in '{output_file}'")

# Esecuzione della pipeline sul dataset
input_file = "dataset_example.csv"  # Dataset di esempio generato
output_file = "entities_output_2.json"  # File di output con le entità estratte
process_dataset(input_file, output_file)


Processing row 1/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Elon Musk => Person
SpaceX => Company
Tesla => Company
SpaceX => Company
Starship => Rocket

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Elon Musk', 'label': 'Person'}, {'text': 'SpaceX', 'label': 'Company'}, {'text': 'Tesla', 'label': 'Company'}, {'text': 'SpaceX', 'label': 'Company'}, {'text': 'Starship', 'label': 'Rocket'}]
Entità estratte da spaCy (adattato): [{'text': 'Elon Musk', 'label': 'PERSON'}, {'text': 'SpaceX e Tesla', 'label': 'PERSON'}, {'text': '2021', 'label': 'CARDINAL'}, {'text': 'che la', 'label': 'ORG'}, {'text': '2030', 'label': 'DATE'}]

Processing row 2/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Louvre di Parigi => Museum
Leonardo da Vinci => Person

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Louvre di Parigi', 'label': 'Museum'}, {'text': 'Leonardo da Vinci', 'label': 'Person'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Louvre', 'label': 'ORG'}, {'text': 'Parigi', 'label': 'ORG'}, {'text': 'Gioconda', 'label': 'GPE'}, {'text': 'Leonardo da Vinci', 'label': 'PERSON'}, {'text': 'la Venere', 'label': 'FAC'}]

Processing row 3/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


FIFA World Cup 2022 => Organisation
Lionel Messi => Person

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'FIFA World Cup 2022', 'label': 'Organisation'}, {'text': 'Lionel Messi', 'label': 'Person'}]
Entità estratte da spaCy (adattato): [{'text': 'La FIFA World Cup 2022', 'label': 'ORG'}, {'text': 'Qatar', 'label': 'GPE'}, {'text': 'Messi', 'label': 'PERSON'}]

Processing row 4/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Neil Armstrong => Astronaut
Luna => Settlement
Apollo 11 => SpaceMission
NASA => Organisation

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Neil Armstrong', 'label': 'Astronaut'}, {'text': 'Luna', 'label': 'Settlement'}, {'text': 'Apollo 11', 'label': 'SpaceMission'}, {'text': 'NASA', 'label': 'Organisation'}]
Entità estratte da spaCy (adattato): [{'text': 'Nel', 'label': 'PERSON'}, {'text': 'Neil Armstrong', 'label': 'PERSON'}, {'text': 'Luna', 'label': 'GPE'}, {'text': 'Apollo 11', 'label': 'PRODUCT'}, {'text': 'NASA', 'label': 'ORG'}]

Processing row 5/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Apple => Company

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Apple', 'label': 'Company'}]
Entità estratte da spaCy (adattato): [{'text': 'Apple', 'label': 'ORG'}, {'text': '14', 'label': 'CARDINAL'}, {'text': 'Dynamic Island', 'label': 'LOC'}, {'text': '2022', 'label': 'DATE'}, {'text': 'Cupertino', 'label': 'GPE'}]

Processing row 6/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Giorgio Parisi => Person

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Giorgio Parisi', 'label': 'Person'}]
Entità estratte da spaCy (adattato): [{'text': '2021', 'label': 'DATE'}, {'text': 'Giorgio Parisi', 'label': 'LOC'}]

Processing row 7/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


NASA => Organisation
Artemis => SpaceMission
Luna => Planet

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'NASA', 'label': 'Organisation'}, {'text': 'Artemis', 'label': 'SpaceMission'}, {'text': 'Luna', 'label': 'Planet'}]
Entità estratte da spaCy (adattato): [{'text': 'La NASA', 'label': 'PERSON'}, {'text': 'Artemis', 'label': 'ORG'}, {'text': 'esseri', 'label': 'CARDINAL'}, {'text': 'Luna entro', 'label': 'PERSON'}, {'text': '2025', 'label': 'DATE'}]

Processing row 8/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Tesla => Company
NVIDIA => Company
CES 2023 => Convention

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Tesla', 'label': 'Company'}, {'text': 'NVIDIA', 'label': 'Company'}, {'text': 'CES 2023', 'label': 'Convention'}]
Entità estratte da spaCy (adattato): [{'text': 'NVIDIA', 'label': 'ORG'}, {'text': 'al CES 2023', 'label': 'ORG'}]

Processing row 9/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Torre Eiffel => Museum

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Torre Eiffel', 'label': 'Museum'}]
Entità estratte da spaCy (adattato): [{'text': 'La Torre Eiffel', 'label': 'ORG'}, {'text': 'Parigi', 'label': 'ORG'}, {'text': 'al mondo', 'label': 'LOC'}]

Processing row 10/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Coppa del Mondo FIFA 2018 => Convention
Francia => Country
Russia => Country

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Coppa del Mondo FIFA 2018', 'label': 'Convention'}, {'text': 'Francia', 'label': 'Country'}, {'text': 'Russia', 'label': 'Country'}]
Entità estratte da spaCy (adattato): [{'text': 'La Coppa del Mondo', 'label': 'PERSON'}, {'text': '2018', 'label': 'DATE'}, {'text': 'vinta', 'label': 'ORG'}, {'text': 'dalla Francia', 'label': 'ORG'}, {'text': 'torneo ospitato', 'label': 'PERSON'}, {'text': 'Russia', 'label': 'GPE'}]

Processing row 11/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Metropolitan Museum of Art di New York => Museum

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Metropolitan Museum of Art di New York', 'label': 'Museum'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Metropolitan Museum of Art di', 'label': 'ORG'}, {'text': 'New York', 'label': 'GPE'}]

Processing row 12/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


SpaceX => Company
Starship => Rocket
Marte => Planet

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'SpaceX', 'label': 'Company'}, {'text': 'Starship', 'label': 'Rocket'}, {'text': 'Marte', 'label': 'Planet'}]
Entità estratte da spaCy (adattato): [{'text': 'SpaceX sta sviluppando', 'label': 'PERSON'}, {'text': 'Starship', 'label': 'PERSON'}]

Processing row 13/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Formula 1 => Organisation
Gran Premio di Monaco => Convention

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Formula 1', 'label': 'Organisation'}, {'text': 'Gran Premio di Monaco', 'label': 'Convention'}]
Entità estratte da spaCy (adattato): [{'text': 'La Formula 1', 'label': 'PERSON'}, {'text': 'sport automobilistici più', 'label': 'PERSON'}, {'text': 'al mondo', 'label': 'PERSON'}, {'text': 'Gran Premio', 'label': 'PERSON'}, {'text': 'Monaco', 'label': 'GPE'}]

Processing row 14/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Google => Company
conferenza I/O annuale => Convention

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Google', 'label': 'Company'}, {'text': 'conferenza I/O annuale', 'label': 'Convention'}]
Entità estratte da spaCy (adattato): [{'text': 'Google', 'label': 'ORG'}, {'text': 'la sua', 'label': 'GPE'}]

Processing row 15/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


New York => City
Stati Uniti d'America => Country

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'New York', 'label': 'City'}, {'text': "Stati Uniti d'America", 'label': 'Country'}]
Entità estratte da spaCy (adattato): [{'text': 'La Statua', 'label': 'ORG'}, {'text': 'Libertà', 'label': 'GPE'}, {'text': 'un', 'label': 'ORG'}, {'text': 'New York', 'label': 'GPE'}, {'text': 'Stati Uniti', 'label': 'PERSON'}, {'text': "d'America", 'label': 'ORG'}]

Processing row 16/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Dubai => City

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Dubai', 'label': 'City'}]
Entità estratte da spaCy (adattato): [{'text': "L'Expo 2020", 'label': 'DATE'}, {'text': 'Dubai', 'label': 'GPE'}, {'text': 'mostrato', 'label': 'ORG'}]

Processing row 17/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Museo del Prado => Museum
Madrid => City
Velázquez => Artist
Goya => Artist

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Museo del Prado', 'label': 'Museum'}, {'text': 'Madrid', 'label': 'City'}, {'text': 'Velázquez', 'label': 'Artist'}, {'text': 'Goya', 'label': 'Artist'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Museo del Prado', 'label': 'PERSON'}, {'text': 'Madrid', 'label': 'GPE'}, {'text': 'Velázquez e Goya', 'label': 'ORG'}]

Processing row 18/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Premier League => SoccerLeague
Manchester United => SoccerClub
Chelsea => SoccerClub

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Premier League', 'label': 'SoccerLeague'}, {'text': 'Manchester United', 'label': 'SoccerClub'}, {'text': 'Chelsea', 'label': 'SoccerClub'}]
Entità estratte da spaCy (adattato): [{'text': 'La Premier League', 'label': 'ORG'}, {'text': 'campionato di calcio più', 'label': 'PERSON'}, {'text': 'del mondo', 'label': 'GPE'}, {'text': 'Manchester United', 'label': 'GPE'}, {'text': 'Chelsea', 'label': 'ORG'}]

Processing row 19/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Amazon => Company

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Amazon', 'label': 'Company'}]
Entità estratte da spaCy (adattato): [{'text': 'Amazon', 'label': 'ORG'}, {'text': 'lanciato', 'label': 'ORG'}, {'text': 'Echo', 'label': 'LOC'}, {'text': 'Alexa', 'label': 'ORG'}]

Processing row 20/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Mars Rover => Rocket
NASA => Organisation
campioni di suolo marziano => Person

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Mars Rover', 'label': 'Rocket'}, {'text': 'NASA', 'label': 'Organisation'}, {'text': 'campioni di suolo marziano', 'label': 'Person'}]
Entità estratte da spaCy (adattato): [{'text': 'NASA', 'label': 'ORG'}, {'text': '2021', 'label': 'DATE'}]

Processing row 21/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


CERN di Ginevra => Organisation

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'CERN di Ginevra', 'label': 'Organisation'}]
Entità estratte da spaCy (adattato): [{'text': 'Il CERN di Ginevra', 'label': 'ORG'}, {'text': 'Large Hadron', 'label': 'PERSON'}]

Processing row 22/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Festival di Cannes => FilmFestival

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Festival di Cannes', 'label': 'FilmFestival'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Festival', 'label': 'EVENT'}, {'text': 'Cannes', 'label': 'PRODUCT'}, {'text': 'più', 'label': 'LOC'}, {'text': 'del mondo', 'label': 'LOC'}]

Processing row 23/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


La National Gallery di Londra => Museum
Van Gogh => Artist
Monet => Artist

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'La National Gallery di Londra', 'label': 'Museum'}, {'text': 'Van Gogh', 'label': 'Artist'}, {'text': 'Monet', 'label': 'Artist'}]
Entità estratte da spaCy (adattato): [{'text': 'La National Gallery di Londra', 'label': 'ORG'}]

Processing row 24/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Il Giappone => City

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Il Giappone', 'label': 'City'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Giappone', 'label': 'ORG'}, {'text': 'la tecnologia', 'label': 'GPE'}]

Processing row 25/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Super Bowl => Convention
Stati Uniti => Country

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Super Bowl', 'label': 'Convention'}, {'text': 'Stati Uniti', 'label': 'Country'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Super Bowl', 'label': 'ORG'}, {'text': 'più', 'label': 'ORG'}, {'text': 'Stati Uniti', 'label': 'PERSON'}]

Processing row 26/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


La Biennale di Venezia => FilmFestival

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'La Biennale di Venezia', 'label': 'FilmFestival'}]
Entità estratte da spaCy (adattato): [{'text': 'La Biennale', 'label': 'PERSON'}, {'text': 'Venezia', 'label': 'GPE'}]

Processing row 27/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Il Museo Egizio di Torino => Museum

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Il Museo Egizio di Torino', 'label': 'Museum'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Museo Egizio', 'label': 'PERSON'}, {'text': 'delle più grandi', 'label': 'PRODUCT'}, {'text': 'al mondo', 'label': 'PERSON'}]

Processing row 28/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Monte Everest => Mountain
Himalaya => Mountain

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Monte Everest', 'label': 'Mountain'}, {'text': 'Himalaya', 'label': 'Mountain'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Monte Everest', 'label': 'LOC'}, {'text': 'la vetta più', 'label': 'ORG'}, {'text': 'del mondo', 'label': 'GPE'}, {'text': 'situata nella', 'label': 'PERSON'}]

Processing row 29/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Silicon Valley => City

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Silicon Valley', 'label': 'City'}]
Entità estratte da spaCy (adattato): [{'text': 'La Silicon Valley', 'label': 'PERSON'}]

Processing row 30/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


NASA => Organisation
Perseverance => SpaceMission
Marte => Planet

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'NASA', 'label': 'Organisation'}, {'text': 'Perseverance', 'label': 'SpaceMission'}, {'text': 'Marte', 'label': 'Planet'}]
Entità estratte da spaCy (adattato): [{'text': 'La NASA', 'label': 'PERSON'}, {'text': 'Perseverance su Marte', 'label': 'PERSON'}]

Processing row 31/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


British Museum di Londra => Museum

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'British Museum di Londra', 'label': 'Museum'}]
Entità estratte da spaCy (adattato): [{'text': 'Il British Museum di Londra', 'label': 'ORG'}]

Processing row 32/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Coppa del Mondo di Rugby => Convention
pianeta => Planet

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Coppa del Mondo di Rugby', 'label': 'Convention'}, {'text': 'pianeta', 'label': 'Planet'}]
Entità estratte da spaCy (adattato): [{'text': 'La Coppa del Mondo', 'label': 'PERSON'}, {'text': 'più', 'label': 'LOC'}]

Processing row 33/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


TED => Organisation
esperti => Person

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'TED', 'label': 'Organisation'}, {'text': 'esperti', 'label': 'Person'}]
Entità estratte da spaCy (adattato): [{'text': 'La conferenza TED riunisce', 'label': 'ORG'}, {'text': 'tecnologia', 'label': 'GPE'}]

Processing row 34/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.



Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: []
Entità estratte da spaCy (adattato): [{'text': 'La Muraglia', 'label': 'PERSON'}, {'text': 'Cinese', 'label': 'NORP'}, {'text': 'delle meraviglie del mondo', 'label': 'PERSON'}]

Processing row 35/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Teatro alla Scala di Milano => Venue

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Teatro alla Scala di Milano', 'label': 'Venue'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Teatro', 'label': 'PERSON'}, {'text': 'Scala di Milano', 'label': 'PERSON'}, {'text': 'più', 'label': 'LOC'}, {'text': 'al mondo', 'label': 'LOC'}]

Processing row 36/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


NASA => Organisation
Giove => Person

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'NASA', 'label': 'Organisation'}, {'text': 'Giove', 'label': 'Person'}]
Entità estratte da spaCy (adattato): [{'text': 'Juno della', 'label': 'PERSON'}, {'text': 'NASA', 'label': 'ORG'}, {'text': 'Giove', 'label': 'ORG'}]

Processing row 37/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Brasile => Country
sfilate => MusicGenre
samba => MusicGenre

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Brasile', 'label': 'Country'}, {'text': 'sfilate', 'label': 'MusicGenre'}, {'text': 'samba', 'label': 'MusicGenre'}]
Entità estratte da spaCy (adattato): [{'text': 'del Brasile', 'label': 'PERSON'}]

Processing row 38/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


UNESCO => Organisation

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'UNESCO', 'label': 'Organisation'}]
Entità estratte da spaCy (adattato): []

Processing row 39/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Stazione Spaziale Internazionale => Station
ISS => Station

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Stazione Spaziale Internazionale', 'label': 'Station'}, {'text': 'ISS', 'label': 'Station'}]
Entità estratte da spaCy (adattato): [{'text': 'La Stazione', 'label': 'ORG'}, {'text': 'ISS', 'label': 'ORG'}, {'text': 'un', 'label': 'ORG'}]

Processing row 40/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Moai => Deity

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Moai', 'label': 'Deity'}]
Entità estratte da spaCy (adattato): [{'text': 'Pasqua', 'label': 'ORG'}, {'text': 'Moai', 'label': 'PERSON'}]

Processing row 41/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


La Galleria degli Uffizi => Museum
Firenze => City
Botticelli => Artist
Michelangelo => Artist

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'La Galleria degli Uffizi', 'label': 'Museum'}, {'text': 'Firenze', 'label': 'City'}, {'text': 'Botticelli', 'label': 'Artist'}, {'text': 'Michelangelo', 'label': 'Artist'}]
Entità estratte da spaCy (adattato): [{'text': 'La Galleria', 'label': 'GPE'}, {'text': 'Uffizi', 'label': 'GPE'}, {'text': 'Firenze', 'label': 'PERSON'}, {'text': 'Botticelli e Michelangelo', 'label': 'ORG'}]

Processing row 42/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Il Nobel per la Chimica 2020 => Award

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Il Nobel per la Chimica 2020', 'label': 'Award'}]
Entità estratte da spaCy (adattato): [{'text': 'Il Nobel', 'label': 'ORG'}, {'text': '2020', 'label': 'DATE'}, {'text': 'CRISPR', 'label': 'PERSON'}]

Processing row 43/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Australia => Country

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Australia', 'label': 'Country'}]
Entità estratte da spaCy (adattato): [{'text': 'La Grande Barriera Corallina', 'label': 'ORG'}, {'text': 'Australia', 'label': 'GPE'}, {'text': 'del mondo', 'label': 'LOC'}]

Processing row 44/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Cattedrale di Notre-Dame => Venue
Parigi => City

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Cattedrale di Notre-Dame', 'label': 'Venue'}, {'text': 'Parigi', 'label': 'City'}]
Entità estratte da spaCy (adattato): [{'text': 'La Cattedrale', 'label': 'ORG'}, {'text': 'Notre-Dame', 'label': 'FAC'}, {'text': 'un', 'label': 'ORG'}, {'text': "dell'architettura", 'label': 'GPE'}]

Processing row 45/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


SXSW => FilmFestival
Austin => City
tecnologia => MusicGenre
musica => MusicGenre
cinema => MusicGenre

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'SXSW', 'label': 'FilmFestival'}, {'text': 'Austin', 'label': 'City'}, {'text': 'tecnologia', 'label': 'MusicGenre'}, {'text': 'musica', 'label': 'MusicGenre'}, {'text': 'cinema', 'label': 'MusicGenre'}]
Entità estratte da spaCy (adattato): [{'text': 'Austin', 'label': 'GPE'}, {'text': 'tecnologia', 'label': 'GPE'}, {'text': 'musica', 'label': 'GPE'}]

Processing row 46/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation', 'Automobile', 'Politician']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


La Ferrari => Automobile

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'La Ferrari', 'label': 'Automobile'}]
Entità estratte da spaCy (adattato): [{'text': 'La Ferrari', 'label': 'PERSON'}]

Processing row 47/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation', 'Automobile', 'Politician']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


NASA => Organisation
Europa => Planet
luna ghiacciata di Giove => Planet

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'NASA', 'label': 'Organisation'}, {'text': 'Europa', 'label': 'Planet'}, {'text': 'luna ghiacciata di Giove', 'label': 'Planet'}]
Entità estratte da spaCy (adattato): [{'text': 'La NASA', 'label': 'PERSON'}, {'text': 'Europa', 'label': 'LOC'}, {'text': 'Giove', 'label': 'ORG'}]

Processing row 48/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation', 'Automobile', 'Politician']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Il David di Michelangelo => Deity
Rinascimento italiano => Language

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Il David di Michelangelo', 'label': 'Deity'}, {'text': 'Rinascimento italiano', 'label': 'Language'}]
Entità estratte da spaCy (adattato): [{'text': 'Michelangelo', 'label': 'PERSON'}, {'text': 'più', 'label': 'LOC'}, {'text': 'Rinascimento', 'label': 'GPE'}]

Processing row 49/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation', 'Automobile', 'Politician']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Borsa di New York => City

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'Borsa di New York', 'label': 'City'}]
Entità estratte da spaCy (adattato): [{'text': 'La Borsa', 'label': 'ORG'}, {'text': 'New York', 'label': 'GPE'}]

Processing row 50/50...




Categorie salvate in 'categories_1.json'
Etichette utilizzate per l'estrazione: ['Person', 'Company', 'Rocket', 'SoccerClub', 'Museum', 'Settlement', 'Organisation', 'Astronaut', 'SpaceMission', 'Scientist', 'Deity', 'Planet', 'Convention', 'Language', 'Country', 'City', 'Artist', 'SoccerLeague', 'InformationAppliance', 'Software', 'FilmFestival', 'NationalFootballLeagueEvent', 'Mountain', 'AdministrativeRegion', 'Website', 'Venue', 'Village', 'Award', 'Town', 'MusicGenre', 'Station', 'SpaceStation', 'Automobile', 'Politician']


Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


World Health Organization => Organisation
WHO => Organisation
campagne globali di salute pubblica => Convention

Confronto tra GLiNER e spaCy:
Entità estratte da GLiNER: [{'text': 'World Health Organization', 'label': 'Organisation'}, {'text': 'WHO', 'label': 'Organisation'}, {'text': 'campagne globali di salute pubblica', 'label': 'Convention'}]
Entità estratte da spaCy (adattato): [{'text': 'La World Health Organization', 'label': 'ORG'}]
File 'entities_output_2.json' creato con successo!
