# Setup Hugging Face

List of task:

- Sentiment Analysis

- Zero-shot classification
- Text Generation
- Text Completion (Fill Mask)
- NER Tagging / Token classification
- Question Answering
- Summarization
- Translation

## Pipeline

### Example 1 - Sentiment Analysis

Il modello nella cella sopra effettua in automatico le operazioni di pre e post processing del testo.

- *pre-processing* - Tokenizza il test

- *post-processing* - sulla base del nostro task (sentiment-analysis) ritorna cosa ci serve, in questo caso una `label` associata al testo con uno `score`

In [30]:
from transformers import pipeline
classifier = pipeline('sentiment-analysis')

res = classifier([
  'We are very happy to show you the 🤗 Transformers library.',
  'I hate this so much!'
  ])

print(res)

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.9997795224189758}, {'label': 'NEGATIVE', 'score': 0.9994558691978455}]


### Example 2 - Zero-shot classification

Vogliamo classificare il testo in input assegnando un valore di appartenenza alle classi in input

In [31]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
  "This is course about the Transofrmers library",
  candidate_labels=["education", "politics", "business"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

{'sequence': 'This is course about the Transofrmers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.927046537399292, 0.051024530082941055, 0.02192891761660576]}

### Example 3 - Text Generation

In [32]:
from transformers import pipeline

generator = pipeline("text-generation")
generator(
  "In this course, we will teach you how to"
)

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to build tools to collect data, convert, and store data, so you can better understand and predict the results generated from the event. Learn more About Data Collection Software, How to Create a Simple Data Collection'}]

In [33]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
  "In this course, we will teach you how to",
  max_length=30,
  num_return_sequences=2,
)

config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to use a camera lens for your own needs.\n\n\n\nI hope you enjoyed this one,'},
 {'generated_text': 'In this course, we will teach you how to change our systems to be better at learning this and learn how to be better at the tools to work'}]

### Example 4 - Run Mistral Model
**NOTES**: Do Not Run Unless you want to spend ALOT of storage on your disk

In [None]:
model_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"

from transformers import pipeline

generator = pipeline("text-generation", model=model_id)
generator(
  "In this course, we will teach you how to"
)

### Example 5 - Fill Mask

In [34]:
from transformers import pipeline

unmasker = pipeline("fill-mask")  
unmasker("This course will teach you all about <mask> models.", top_k=2)

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/331M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.19619722664356232,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.0405273400247097,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

### BLA

## Managing Cache

#### Login (?)

In [4]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

#### Delete specific id

In [5]:
from huggingface_hub import scan_cache_dir

scan_cache_dir().delete_revisions(
    "e7da7f221d5bf496a48136c0cd264e630fe9fcc8"
).execute()

Revision(s) not found - cannot delete them: e7da7f221d5bf496a48136c0cd264e630fe9fcc8


Scan cache directory

In [25]:
from pprint import pprint
hf_cache_info = scan_cache_dir()

hf_cache_info.repos

frozenset({CachedRepoInfo(repo_id='distilbert-base-uncased-finetuned-sst-2-english', repo_type='model', repo_path=PosixPath('/Users/paolobonicco/.cache/huggingface/hub/models--distilbert-base-uncased-finetuned-sst-2-english'), size_on_disk=268064743, nb_files=4, revisions=frozenset({CachedRevisionInfo(commit_hash='714eb0fa89d2f80546fda750413ed43d93601a13', snapshot_path=PosixPath('/Users/paolobonicco/.cache/huggingface/hub/models--distilbert-base-uncased-finetuned-sst-2-english/snapshots/714eb0fa89d2f80546fda750413ed43d93601a13'), size_on_disk=268064743, files=frozenset({CachedFileInfo(file_name='vocab.txt', file_path=PosixPath('/Users/paolobonicco/.cache/huggingface/hub/models--distilbert-base-uncased-finetuned-sst-2-english/snapshots/714eb0fa89d2f80546fda750413ed43d93601a13/vocab.txt'), blob_path=PosixPath('/Users/paolobonicco/.cache/huggingface/hub/models--distilbert-base-uncased-finetuned-sst-2-english/blobs/fb140275c155a9c7c5a3b3e0e77a9e839594a938'), size_on_disk=231508, blob_last

Delete by model_id

In [29]:
!huggingface-cli scan-cache -v

REPO ID REPO TYPE REVISION SIZE ON DISK NB FILES LAST_MODIFIED REFS LOCAL PATH 
------- --------- -------- ------------ -------- ------------- ---- ---------- 

Done in 0.0s. Scanned 0 repo(s) for a total of [1m[31m0.0[0m.


In [27]:
cache_info = scan_cache_dir()
delete_strategy = cache_info.delete_revisions(
    "714eb0fa89d2f80546fda750413ed43d93601a13",
    "d7645e127eaf1aefc7862fd59a17a5aa8558b8ce",
    "11c5a3d5811f50298f278a704980280950aedb10"
)
print(f"Will free {delete_strategy.expected_freed_size_str}.")

Will free 2.5G.


In [28]:
delete_strategy.execute()

In [21]:
scan_cache_dir().delete_revisions(
    "11c5a3d5811f50298f278a704980280950aedb10"
).execute()

Revision(s) not found - cannot delete them: facebook/bart-large-mnli


## ITALIAN-LAW-BERT

In [1]:
from transformers import AutoModel, AutoTokenizer
model_name = "dlicari/Italian-Legal-BERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

Some weights of BertModel were not initialized from the model checkpoint at dlicari/Italian-Legal-BERT and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
from transformers import pipeline
model_name = "dlicari/Italian-Legal-BERT"
fill_mask = pipeline("fill-mask", model_name)
fill_mask("Il [MASK] ha chiesto revocarsi l'obbligo di pagamento")

#### Da provare con Dati documento

In [2]:
text1 =  "L'utente è totalmente ed esclusivamente responsabile dell'uso del Servizio (da intendersi espressamente con riguardo alle funzioni di pubblicazione, di consultazione, di gestione delle inserzioni e di contatto tra utenti) ed è pertanto l'unico garante e responsabile dei beni e dei servizi offerti per il tramite del Servizio nonchè della correttezza, completezza e liceità delle inserzioni e del proprio comportamento nell'ambito del contatto tra utenti."

In [5]:
text1 = "Subito.it S.r.l. non presta alcuna garanzia circa il contenuto, la completezza e la correttezza delle inserzioni pubblicate nè con riguardo ai dati pubblicati, né relativamente alle informazioni successivamente fornite dall’utente, nè con riferimento al numero o alla qualità dei risultati ottenuti tramite il Servizio. In ogni caso Subito.it S.r.l. si riserva, in qualsiasi momento, il diritto di valutare, approvare, eliminare o impedire l'inserzione ovvero il diritto di inibire la consultazione o il contatto per il tramite del form di risposta all’annuncio nel caso in cui, a proprio insindacabile giudizio, l'uso del Servizio da parte dell'utente si riferisca a particolari sezioni merceologiche o possa considerarsi lesivo di diritti o delle prerogative di Subito.it S.r.l. o di terzi. Resta inteso che anche in caso di valutazione ed approvazione delle inserzioni (siano esse automatiche o manuali) Subito.it S.r.l. non presta alcuna garanzia circa il contenuto, la completezza e la correttezza delle stesse. Subito.it S.r.l. è altresì estranea alle trattative eventualmente nascenti dall'uso del Servizio e pertanto non garantisce nè la bontà nè l'esito delle stesse, di conseguenza nessuna richiesta di restituzione, compensazione, riparazione e/o risarcimento a qualunque titolo potrà essere indirizzata nei confronti di Subito.it S.r.l. Il Servizio è offerto per il tramite del sito www.subito.it, del m-site m.subito.it e delle applicazioni mobile che possono contenere banner/link ad altri siti Internet o applicazioni che non sono sotto il controllo di Subito.it S.r.l.; la pubblicazione dei predetti banner/link non comporta l’approvazione o l’avallo da parte di Subito.it S.r.l. dei relativi siti e dei loro contenuti, né implica alcuna forma di garanzia da parte di quest’ultima che pertanto non si assume alcuna responsabilità. L'utente riconosce, quindi, che Subito.it S.r.l. non è responsabile, a titolo meramente esemplificativo, della veridicità, correttezza, completezza, del rispetto dei diritti di proprietà intellettuale e/o industriale, né risponde della loro eventuale contrarietà all’ordine pubblico, al buon costume e/o alla morale."

In [3]:
categories1 = ["Responsabilità dell'utente", "Limitazione di responsabilità", "Diritti di proprietà intellettuale", "Privacy", "Disposizioni finali"]

In [9]:
cat1 = ["Termini e Condizioni", "Università", "Porno"]

In [10]:
from transformers import pipeline
model_name = "dlicari/Italian-Legal-BERT"
classifier = pipeline("zero-shot-classification", model=model_name)
classifier(
  text1,
  candidate_labels=cat1,
)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at dlicari/Italian-Legal-BERT and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Failed to determine 'entailment' label id from the label2id mapping in the model config. Setting to -1. Define a descriptive label2id mapping in the model config to ensure correct outputs.


{'sequence': "Subito.it S.r.l. non presta alcuna garanzia circa il contenuto, la completezza e la correttezza delle inserzioni pubblicate nè con riguardo ai dati pubblicati, né relativamente alle informazioni successivamente fornite dall’utente, nè con riferimento al numero o alla qualità dei risultati ottenuti tramite il Servizio. In ogni caso Subito.it S.r.l. si riserva, in qualsiasi momento, il diritto di valutare, approvare, eliminare o impedire l'inserzione ovvero il diritto di inibire la consultazione o il contatto per il tramite del form di risposta all’annuncio nel caso in cui, a proprio insindacabile giudizio, l'uso del Servizio da parte dell'utente si riferisca a particolari sezioni merceologiche o possa considerarsi lesivo di diritti o delle prerogative di Subito.it S.r.l. o di terzi. Resta inteso che anche in caso di valutazione ed approvazione delle inserzioni (siano esse automatiche o manuali) Subito.it S.r.l. non presta alcuna garanzia circa il contenuto, la completezza 

In [None]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
  "This is course about the Transofrmers library",
  candidate_labels=["education", "politics", "business"],
)