# Introduzione a Hugging Face

Hugging Face è una comunità e una piattaforma per l'apprendimento automatico. Offre una vasta gamma di modelli pre-addestrati, set di dati e strumenti per semplificare lo sviluppo e la condivisione di modelli di intelligenza artificiale.

In particolare, Hugging Face è utilizzzata per hostare molti modelli di elaborazione del linguaggio naturale (NLP), come BERT, GPT-2 e molti altri. Questi modelli possono essere utilizzati per una varietà di attività, tra cui la classificazione del testo, la traduzione automatica e la generazione di testo.

La piattaforma Hugging Face è progettata per essere facile da usare e accessibile sia ai principianti che agli esperti.

Offre un'interfaccia web intuitiva e un'API potente per interagire con i modelli e i set di dati.

WikiNEuRal è un dataset multilingue per il riconoscimento di entità nominate (NER), creato combinando approcci basati su conoscenza e modelli neurali. Copre 9 lingue: inglese, italiano, tedesco, francese, spagnolo, olandese, polacco, portoghese e russo. Le annotazioni seguono lo schema IOB con le etichette: PER, ORG, LOC, MISC e O.

Nel contesto del riconoscimento di entità nominate (Named Entity Recognition, NER), il tag “O” sta per “Outside”, ovvero indica che il token (parola) non appartiene a nessuna entità riconosciuta. In altre parole, è utilizzato per marcare le parole che non fanno parte di entità come persone (PER), organizzazioni (ORG), luoghi (LOC) o altre categorie specifiche (MISC)
 ￼

Il modello associato, wikineural-multilingual-ner, è un mBERT fine-tuned su questo dataset ed è disponibile su Hugging Face.

In [None]:
!pip install -qU huggingface_hub transformers accelerate sentencepiece

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m36.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m16.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m24.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m11.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m7.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Questo codice permette di autenticarsi con Hugging Face per accedere ai modelli e ai set di dati.

In [None]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [2]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Babelscape/wikineural-multilingual-ner")
model = AutoModelForTokenClassification.from_pretrained("Babelscape/wikineural-multilingual-ner")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/333 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.19k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/709M [00:00<?, ?B/s]

Eseguiamo la classificazione:

In [3]:
nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "Mi chiamo Max e vivo a Roma"

Device set to use cpu


In [6]:
ner_results = nlp(example)

In [8]:
for entity in ner_results:
    print(f"Parola: {entity['word']}, Etichetta: {entity['entity_group']}, Score: {entity['score']:.4f}")

Parola: Max, Etichetta: PER, Score: 0.8577
Parola: Roma, Etichetta: LOC, Score: 0.9997
