# Setup Hugging Face

List of task:

- Sentiment Analysis

- Zero-shot classification
- Text Generation
- Text Completion (Fill Mask)
- NER Tagging / Token classification
- Question Answering
- Summarization
- Translation

## Pipeline

### Example 1 - Sentiment Analysis

Il modello nella cella sopra effettua in automatico le operazioni di pre e post processing del testo.

- *pre-processing* - Tokenizza il test

- *post-processing* - sulla base del nostro task (sentiment-analysis) ritorna cosa ci serve, in questo caso una `label` associata al testo con uno `score`

In [1]:
from transformers import pipeline
classifier = pipeline('sentiment-analysis')

res = classifier([
  'We are very happy to show you the 🤗 Transformers library.',
  'I hate this so much!'
  ])

print(res)

  from .autonotebook import tqdm as notebook_tqdm
No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9997795224189758}, {'label': 'NEGATIVE', 'score': 0.9994558691978455}]


### Example 2 - Zero-shot classification

Vogliamo classificare il testo in input assegnando un valore di appartenenza alle classi in input

In [2]:
from transformers import pipeline

classifier = pipeline(task="zero-shot-classification")
classifier(
  "This is course about the Transofrmers library",
  candidate_labels=["education", "politics", "business"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


{'sequence': 'This is course about the Transofrmers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.9270463585853577, 0.051024843007326126, 0.021928803995251656]}

### Example 3 - Text Generation

In [3]:
from transformers import pipeline

generator = pipeline("text-generation")
generator(
  "In this course, we will teach you how to"
)

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to implement the "dynamic analysis" of your game\'s rules such as how the rules affect the game, how they affect specific variables, how they affect behavior, the use of tools such as \'d'}]

In [4]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
  "In this course, we will teach you how to",
  max_length=30,
  num_return_sequences=2,
)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to become part of the VAPT project. This course is in the "Advanced" section of the'},
 {'generated_text': 'In this course, we will teach you how to get started with Docker, which is a distributed cloud infrastructure. If you are a cloud infrastructure developer,'}]

### Example 4 - Run Mistral Model
**NOTES**: Do Not Run Unless you want to spend ALOT of storage on your disk

In [5]:
model_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"

from transformers import pipeline

generator = pipeline("text-generation", model=model_id)
generator(
  "In this course, we will teach you how to"
)

config.json: 100%|██████████| 720/720 [00:00<00:00, 1.32MB/s]
model.safetensors.index.json: 100%|██████████| 92.7k/92.7k [00:00<00:00, 974kB/s]
model-00001-of-00019.safetensors:  19%|█▉        | 944M/4.89G [00:11<00:49, 80.3MB/s]
Downloading shards:   0%|          | 0/19 [00:12<?, ?it/s]


KeyboardInterrupt: 

### Example 5 - Fill Mask

In [None]:
from transformers import pipeline

unmasker = pipeline("fill-mask")  
unmasker("This course will teach you all about <mask> models.", top_k=2)

## Managing Cache

#### Login (?)

In [None]:
from huggingface_hub import notebook_login
notebook_login()

#### Delete specific id

In [None]:
from huggingface_hub import scan_cache_dir

scan_cache_dir().delete_revisions(
    "e7da7f221d5bf496a48136c0cd264e630fe9fcc8"
).execute()

Scan cache directory

In [None]:
from pprint import pprint
hf_cache_info = scan_cache_dir()

hf_cache_info.repos

Delete by model_id

In [None]:
!huggingface-cli scan-cache -v

In [None]:
cache_info = scan_cache_dir()
delete_strategy = cache_info.delete_revisions(
    "714eb0fa89d2f80546fda750413ed43d93601a13",
    "d7645e127eaf1aefc7862fd59a17a5aa8558b8ce",
    "11c5a3d5811f50298f278a704980280950aedb10"
)
print(f"Will free {delete_strategy.expected_freed_size_str}.")

In [None]:
delete_strategy.execute()

In [None]:
scan_cache_dir().delete_revisions(
    "11c5a3d5811f50298f278a704980280950aedb10"
).execute()

## ITALIAN-LAW-BERT

In [1]:
from transformers import AutoModel, AutoTokenizer
model_name = "dlicari/Italian-Legal-BERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

  from .autonotebook import tqdm as notebook_tqdm
Some weights of BertModel were not initialized from the model checkpoint at dlicari/Italian-Legal-BERT and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [2]:
from transformers import pipeline
model_name = "dlicari/Italian-Legal-BERT"
fill_mask = pipeline("fill-mask", model_name)
fill_mask("Il [MASK] ha chiesto revocarsi l'obbligo di pagamento")

[{'score': 0.726547360420227,
  'token': 13516,
  'token_str': 'ricorrente',
  'sequence': "Il ricorrente ha chiesto revocarsi l'obbligo di pagamento"},
 {'score': 0.09637860208749771,
  'token': 20667,
  'token_str': 'convenuto',
  'sequence': "Il convenuto ha chiesto revocarsi l'obbligo di pagamento"},
 {'score': 0.03989312797784805,
  'token': 15552,
  'token_str': 'resistente',
  'sequence': "Il resistente ha chiesto revocarsi l'obbligo di pagamento"},
 {'score': 0.028976984322071075,
  'token': 12934,
  'token_str': 'lavoratore',
  'sequence': "Il lavoratore ha chiesto revocarsi l'obbligo di pagamento"},
 {'score': 0.025283433496952057,
  'token': 8829,
  'token_str': 'Ministero',
  'sequence': "Il Ministero ha chiesto revocarsi l'obbligo di pagamento"}]

#### Da provare con Dati documento

In [None]:
text1 =  "L'utente è totalmente ed esclusivamente responsabile dell'uso del Servizio (da intendersi espressamente con riguardo alle funzioni di pubblicazione, di consultazione, di gestione delle inserzioni e di contatto tra utenti) ed è pertanto l'unico garante e responsabile dei beni e dei servizi offerti per il tramite del Servizio nonchè della correttezza, completezza e liceità delle inserzioni e del proprio comportamento nell'ambito del contatto tra utenti."

In [None]:
text1 = "Subito.it S.r.l. non presta alcuna garanzia circa il contenuto, la completezza e la correttezza delle inserzioni pubblicate nè con riguardo ai dati pubblicati, né relativamente alle informazioni successivamente fornite dall’utente, nè con riferimento al numero o alla qualità dei risultati ottenuti tramite il Servizio. In ogni caso Subito.it S.r.l. si riserva, in qualsiasi momento, il diritto di valutare, approvare, eliminare o impedire l'inserzione ovvero il diritto di inibire la consultazione o il contatto per il tramite del form di risposta all’annuncio nel caso in cui, a proprio insindacabile giudizio, l'uso del Servizio da parte dell'utente si riferisca a particolari sezioni merceologiche o possa considerarsi lesivo di diritti o delle prerogative di Subito.it S.r.l. o di terzi. Resta inteso che anche in caso di valutazione ed approvazione delle inserzioni (siano esse automatiche o manuali) Subito.it S.r.l. non presta alcuna garanzia circa il contenuto, la completezza e la correttezza delle stesse. Subito.it S.r.l. è altresì estranea alle trattative eventualmente nascenti dall'uso del Servizio e pertanto non garantisce nè la bontà nè l'esito delle stesse, di conseguenza nessuna richiesta di restituzione, compensazione, riparazione e/o risarcimento a qualunque titolo potrà essere indirizzata nei confronti di Subito.it S.r.l. Il Servizio è offerto per il tramite del sito www.subito.it, del m-site m.subito.it e delle applicazioni mobile che possono contenere banner/link ad altri siti Internet o applicazioni che non sono sotto il controllo di Subito.it S.r.l.; la pubblicazione dei predetti banner/link non comporta l’approvazione o l’avallo da parte di Subito.it S.r.l. dei relativi siti e dei loro contenuti, né implica alcuna forma di garanzia da parte di quest’ultima che pertanto non si assume alcuna responsabilità. L'utente riconosce, quindi, che Subito.it S.r.l. non è responsabile, a titolo meramente esemplificativo, della veridicità, correttezza, completezza, del rispetto dei diritti di proprietà intellettuale e/o industriale, né risponde della loro eventuale contrarietà all’ordine pubblico, al buon costume e/o alla morale."

In [None]:
categories1 = ["Responsabilità dell'utente", "Limitazione di responsabilità", "Diritti di proprietà intellettuale", "Privacy", "Disposizioni finali"]

In [None]:
cat1 = ["Termini e Condizioni", "Università", "Porno"]

In [None]:
from transformers import pipeline
model_name = "dlicari/Italian-Legal-BERT"
classifier = pipeline("zero-shot-classification", model=model_name)
classifier(
  text1,
  candidate_labels=cat1,
)

In [None]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
  "This is course about the Transofrmers library",
  candidate_labels=["education", "politics", "business"],
)

### Documento question answering

In [8]:
from transformers import pipeline
from PIL import Image
import requests

url = "https://ceur-ws.org/Vol-3256/km4law3.pdf"
image = Image.open(requests.get(url, stream=True).raw)

doc_question_answerer = pipeline("document-question-answering", model="magorshunov/layoutlm-invoices")
preds = doc_question_answerer(
    question="What is the total amount?",
    image=image,
)
preds

UnidentifiedImageError: cannot identify image file <_io.BytesIO object at 0x290413650>